Wprowadzenie do jakości danych: terminy, definicje i przykłady użycia

May 29, 2025
12 min read
Loading the Elevenlabs Text to Speech AudioNative Player...

Proces data quality management składa się z wielu kroków. W rzeczywistości, dane, które pozyskujesz dla swojej firmy, muszą być odpowiednio przeanalizowane i przygotowane, zanim staną się przydatne dla business intelligence lub innych celów. Z tego artykułu dowiesz się, czym jest data quality, co sprawia, że dane są dobre i jak dbać o data quality management.

Nie wiesz jeszcze zbyt wiele o data quality management, ale jesteś zdeterminowany, aby poprawić jakość swoich business insights? Świetnie! Jesteś we właściwym miejscu! Z tego artykułu dowiesz się więcej o dimensions of data quality – krótko mówiąc, opiszemy, jakie powinny być datasets, aby można je było uznać za high quality. Podpowiemy również, jakich data quality management tools możesz użyć w swojej firmie.

Czym jest Data Quality?

Data quality należy rozumieć jako stopień zarówno poprawności, jak i użyteczności danych. Data quality assessment jest ważną częścią procesu data quality management. Miary data quality opierają się na data quality characteristics i oczywiście sukcesie biznesowym dzięki uzyskaniu niezbędnych insights. Jeśli w data stream występuje niezgodność, powinniśmy wiedzieć, jak zidentyfikować konkretne uszkodzone dane. Następnie musimy zidentyfikować data errors, które wymagają rozwiązania i ocenić, czy dane w naszych IT systems są odpowiednie do zamierzonego celu.

Data quality problems mogą zniweczyć sukces wielu projektów, prowadząc do dodatkowych wydatków, utraconych szans sprzedaży lub kar za nieprawidłowe raportowanie finansowe lub zgodności z przepisami w dowolnej dziedzinie, takiej jak bankowość, badania, motoryzacja lub medycyna. Dlatego stała data quality control jest tak ważna i dlatego warto zapoznać się z data validation checks, techniques i tools w poniższym przeglądzie.

Podstawy: The Dimensions of Data Quality

Istnieje sześć głównych data quality metrics do pomiaru jakości Twoich business information: accuracy, completeness, consistency, validity, uniqueness i timeliness. Przyjrzyjmy się im po kolei:

Data accuracy

Data accuracy odnosi się do stopnia, w jakim dane poprawnie reprezentują obiekty „z życia wzięte”, które mają modelować. W wielu przypadkach accuracy jest mierzona tym, jak wartości zgadzają się z zidentyfikowanym źródłem poprawnych informacji (takich jak reference data). Ta data quality metrics jest w rzeczywistości dość trudna do monitorowania, nie tylko dlatego, że wymaga wtórnego źródła do potwierdzenia, ale dlatego, że informacje ze świata rzeczywistego mogą się zmieniać w czasie. Klasycznym przykładem problemu z accuracy są formaty dat USA vs EU, takie jak MM/DD/YYYY vs DD/MM/YYYY. Wierzcie lub nie, to nadal powszechny problem, który może sprawić, że tego rodzaju dane staną się bezużyteczne. Data accuracy jest dosłownie najważniejszą cechą, która sprawia, że dane są użyteczne i celowe.

Data completeness

Data completeness odnosi się do kompleksowości lub całości danych. Aby dane były naprawdę complete, nie powinno być żadnych luk ani brakujących informacji. Czasami incomplete data są bezużyteczne, ale często są nadal używane, nawet z brakującymi informacjami, co może prowadzić do kosztownych błędów i fałszywych wniosków. Incomplete data są często wynikiem nieudanie zebranych danych. Na przykład: zbieranie danych kontaktowych wymaga imienia, nazwiska i adresu e-mail oraz poprawnej relacji tych danych między rekordami. Incomplete data mogą prowadzić do niespójności i błędów, które wpływają na accuracy i reliability.

Data consistency

Ścisła definicja consistency określa, że dwie wartości danych pobrane z oddzielnych data sets nie mogą ze sobą kolidować. Innymi słowy: zapisywane są tylko valid data, które odpowiadają sobie między dwoma data sets. Może to dotyczyć record-level consistency, cross-record consistency lub temporal consistency. Zauważ, że consistency niekoniecznie oznacza correctness. Najczęstszym przykładem data consistency jest uszkodzony backup.

Data validity

Validity jest najbardziej intuicyjna ze wszystkich data quality metrics – dane powinny być zbierane zgodnie z określonymi business rules i parameters, przy jednoczesnym zachowaniu właściwego formatu i mieszczeniu się we właściwym zakresie. Łatwo zrozumieć, że na przykład byty i zdarzenia fizyczne i biologiczne mają swoje granice poprawności i skale jasno określone, na przykład: temperatura ciała, wzrost lub długość życia. Każda wartość spoza zakresu danych jest invalid.

Data uniqueness

Wymiar uniqueness wymaga, aby żaden podmiot nie istniał więcej niż raz w data set. Uniqueness zapewnia, że nie ma duplikatów ani nakładania się wartości we wszystkich data sets. Data cleansing i deduplication mogą pomóc w poprawie niskiego wyniku uniqueness. Przykładem, w którym data uniqueness jest niezbędna, jest baza danych numerów telefonów lub osobistych numerów identyfikacyjnych.

Data timeliness

Timeliness – timely data są dostępne, gdy są wymagane. Dane mogą być aktualizowane w czasie rzeczywistym, aby zapewnić ich łatwą dostępność. Timeliness można mierzyć jako czas między oczekiwaną informacją a momentem, w którym jest ona łatwo dostępna do użycia. Sukces business applications opierających się na master data zależy od spójnych i timely information. Dlatego należy zdefiniować service levels określające, jak szybko dane muszą być propagowane przez scentralizowane repository, aby można było zmierzyć zgodność z tymi ograniczeniami timeliness. Przykładem, kiedy timeliness ma ogromne znaczenie, jest śledzenie czasu zdarzeń związanych z opieką nad pacjentem na izbie przyjęć.

Podsumowanie powyższego opisu znajduje się w Data Quality Dimensions checklist:

[Tabela z checklistą]

Jak określić data quality

Data quality assessment nie jest łatwym zadaniem. Wymaga zrozumienia data quality metrics, dlatego musisz zatrudnić doświadczonych i utalentowanych data quality experts. Masz dwie opcje – możesz zainwestować w data quality services lub zająć się tym we własnym zakresie, z pomocą własnego zespołu data quality experts.

Jeśli posiadasz podstawową wiedzę na temat dimensions of data quality, możesz zagłębić się w określanie data quality. Twoim pierwszym celem jest określenie stanu data set poprzez przeprowadzenie data asset inventories, w których mierzona jest względna accuracy, uniqueness i validity Twoich danych w baseline studies. Ustanowione baseline ratings dla data sets można następnie porównywać z danymi w Twoich systems na bieżąco, aby pomóc w identyfikacji nowych data quality issues, które można rozwiązać.

Drugim krokiem data quality management jest stworzenie zestawu data quality rules w oparciu o business requirements, które będą używane do oceny, czy Twoje dane są wystarczająco dobre, czy wymagają naprawy. Takie rules określają wymagane poziomy jakości w data sets i szczegółowo opisują, jakie różne data elements muszą być uwzględnione, aby można było sprawdzić ich data quality attributes.

Ale co robimy, gdy odkryjemy poor data quality? Czym jest data cleaning?

Datasets mogą być przetwarzane przez: data cleansing lub data scrubbing. Jest to bardzo ważna część procesu data quality management, którego głównym celem jest naprawa data errors, przy jednoczesnym dążeniu do ulepszenia data sets poprzez dodawanie brakujących wartości, bardziej aktualnych informacji lub dodatkowych rekordów. W zależności od ilości data sets, można je przesiewać za pomocą wartości w każdym rekordzie lub sprawdzając metadata, takie jak ilość lub kolejność nagłówków, kolumn i numerów wierszy, między innymi. Wszystkie te operacje można wykonywać za pomocą dedykowanych tools i techniques, których przykłady znajdują się w następnym akapicie.

Data quality management tools i techniques

Specjalistyczne software tools do data quality management mogą dopasowywać rekordy, usuwać duplikaty, walidować nowe dane, ustanawiać remediation policies i identyfikować personal data w data sets; wykonują również data profiling w celu zbierania informacji o data sets i identyfikowania możliwych outlier values. Takie tools umożliwiają firmom wykonywanie wydajnego data quality monitoring, dlatego warto dowiedzieć się, jakie rozwiązania są dostępne.

Great Expectation Library

Jednym z rozwiązań data quality jest na przykład Great Expectation Library (https://greatexpectations.io/expectations/), która definiuje się hasłem: Always know what to expect from your data. Great Expectations pomaga również data teams eliminować pipeline debt poprzez data testing, documentation i profiling. Oznacza to, że biblioteka zapewnia pewność, integralność i przyspieszenie data science i data engineering teams, obejmując wszystkie rodzaje powszechnych data issues, w tym:

  • expect_column_values_to_not_be_null
  • expect_column_values_to_match_regex
  • expect_column_values_to_be_unique
  • expect_table_row_count_to_be_between
  • expect_column_median_to_be_between

Więcej o tych techniques można znaleźć na oficjalnej stronie Great Expectations, gdzie znajduje się kilka case studies z doświadczeń różnych firm i zespołów. (kliknij!)

Alternatywne podejście do data quality management

Data Validation algorithms oferują inny sposób określania Data Quality: Na koncie MultiTech na Medium znajduje się propozycja dla Big Data Migration Workloads w Apache Spark, która obejmuje Big Data validation. Big Data odnosi się do ogromnej ilości danych, których nie można przechowywać i przetwarzać przy użyciu tradycyjnego podejścia obliczeniowego w danym przedziale czasowym. W ujęciu liczbowym oznacza to przetwarzanie gigabajtów, terabajtów, petabajtów, eksabajtów lub nawet większych ilości danych. W tym kontekście techniques muszą być bardziej odpowiednie do problemów. Dlatego przedstawiony algorytm obejmuje:

  • Row and Column count
  • Checking Column names
  • Checking Subset Data without Hashing
  • Statistics Comparison
  • Hash Validation on entire data

Są one wysuwane na pierwszy plan, ponieważ śledzenie i raportowanie data quality umożliwia lepsze zrozumienie data accuracy. Ponadto, procesy i tools używane do generowania tych informacji powinny być bardzo przydatne i wykonywać zautomatyzowane funkcje, gdzie to możliwe.

Podsumowanie

Ten post na blogu jest wprowadzeniem do świata data quality i data quality assessment. Zawiera opis sześciu data quality dimensions: accuracy, completes, consistency, validity, uniqueness i timeliness, z ich definicjami, przykładami i opisami relacji między nimi. Na podstawie przedstawionych wskaźników omówiono metody określania data quality, a także trzy podstawowe sposoby radzenia sobie z poor data quality: poprzez przetwarzanie, używanie software tools i stosowanie dedykowanych algorithms.

Skontaktuj się z nami jeśli Twoja firma potrzebuje wydajnych rozwiązań do zarządzania jakością danych. Aby uzyskać więcej artykułów, śledź nasz blog.

Mikrouslugi w inzynierii danych rozbijanie monolitu

Definicja data pipeline projekt i proces

Architektura big data jak zbudowac wydajna

Share this post
Data Engineering
MORE POSTS BY THIS AUTHOR

Curious how we can support your business?

TALK TO US