Eksploracja danych - definicja i techniki

May 8, 2025

Wszyscy mamy do czynienia z ogromnymi zbiorami danych surowych pochodzących z wielu źródeł. Często konieczne jest ich „oczyszczenie” poprzez zastosowanie określonych reguł wzorców dat, znaczników czasu itp. do każdego rodzaju danych. Eksploracja danych to proces, który pomoże Twoim ekspertom dowiedzieć się więcej o informacjach biznesowych, które zbierasz przez cały czas i efektywniej je wykorzystywać.W krótkim okresie eksploracja danych polega na przycinaniu danych w celu usunięcia nieprzydatnych części i zidentyfikowania potencjalnych relacji między różnymi typami danych. Możemy to osiągnąć zarówno w sposób ręczny, jak i automatyczny dzięki opisanym poniżej technikom eksploracji i przykładom analizy danych - dzięki czemu nasze dane staną się kopalnią złota informacji.

Dlaczego eksploracja danych jest ważna?

Eksploracja danych umożliwia głębsze zrozumienie zebranych zbiorów danych, ale jest w tym coś więcej. Dzięki lepszemu poznaniu swoich danych analitycy danych stają się również bardziej wydajni w nawigacji po danych i wykorzystywaniu ich w przyszłości. Jest to również praktyczny proces do wykonania w celu zawężenia zbiorów danych do możliwego do zarządzania rozmiaru, optymalizacji analizy.

Eksploracja danych krok po kroku

Najważniejsze jest zrozumienie, że wysoka jakość danych wejściowych ma kluczowe znaczenie dla osiągnięcia dobrej jakości wyjścia przed przejściem do rzeczywistego procesu eksploracji danych. Przed rozpoczęciem eksploracji zbioru danych należy przeprowadzić czyszczenie i normalizację danych (na przykład dane z czujników są zebrane na całym świecie, ale podane wartości są w różnych skalach temperatury, metryk itp.). Kroki wstępne będą miały kluczowe znaczenie przy rozpoczęciu analizy rzeczywistych danych w celu uzyskania wiarygodnych wniosków biznesowych.Na początku musimy zidentyfikować typ wejścia i wyjścia, kategorie i zmienne, które muszą być jasno zdefiniowane. Następny etap eksploracji danych będzie związany z konkretną eksploracją każdej zmiennej. Metody stosowane do takiej analizy można określić na podstawie rodzaju zmiennych — kategorycznych lub ciągłych. W przypadku zmiennych kategorycznych do zrozumienia rozkładu poszczególnych kategorii należy użyć tabeli częstotliwości przedstawiającej procent wartości według metryk liczby i liczbowy%. Dzięki zmiennym ciągłym musimy zrozumieć rozprzestrzenianie się i tendencję centralną. Dyspersja może być sprawdzana poprzez zakres, kwartyl, odchylenie standardowe, wariancję itp. podczas gdy dla tendencji centralnej użyjemy głównie min, max, średniej, mediany itp. Zwykle możemy łatwo wykonywać nasze obserwacje metodami wizualizacji, takimi jak histogramy lub wykresy. Narzędzia do wizualizacji danych mogą być przydatne podczas eksploracji danych i pomóc w znalezieniu istotnych relacji lub anomalii w zbiorach danych.Należy również przeanalizować relacje między różnymi zmiennymi. Związek i rozłączenie między wstępnie zdefiniowanymi zmiennymi są rozważane w następujących kombinacjach:

Kategoryczne i ciągłe: wykresy ramkowe dla każdej zmiennej kategorycznej, która ma zostać narysowana.
Ciągły i ciągły: zależność liniowa lub nieliniowa zostanie zdefiniowana przez przeprowadzenie analizy między dwiema zmiennymi ciągłymi z wykresem rozproszenia zmiennej kategorycznej.
Kategoryczne i kategoryczne: najłatwiejszym sposobem uzyskania pewnych spostrzeżeń będzie użycie dwukierunkowej tabeli lub skumulowanego wykresu kolumnowego.

Techniki eksploracji danych

Istnieje wiele technik eksploracji danych, których analitycy danych używają, aby dowiedzieć się więcej o zbiorach danych Twojej firmy. W zależności od typu danych niektóre z nich mogą być mniej lub bardziej dokładne do wyboru. Zdefiniowanie, która technika najlepiej pasuje i będzie najbardziej pomocna w pobieraniu cennych informacji ze zbioru danych, ma kluczowe znaczenie przed przejściem do rzeczywistej eksploracji danych. Oto kilka przykładów, które mogą pomóc w podjęciu ostatecznej decyzji.

Unikalna liczba wartości

Jest to pierwsza rzecz, która może być przydatna podczas eksploracji, pokazując, ile unikalnych wartości jest zawartych w kolumnie kategorycznej. To da nam ogólne wyobrażenie o tym, o czym są dane.

Comparison table of Azure Data Factory and Apache Airflow features, including source integration, workflow management, data transformation, and scheduling flexibility.

Rys. 1. Pokazuje liczbę unikalnych nazw w określonym stanie w USA

Częsta liczba wartości

Wykrywanie częstotliwości występowania poszczególnych wartości w określonej kolumnie. Daje to wgląd w treść każdej zmiennej kategorycznej.

Logos of Azure Data Factory and Apache Airflow, representing a comparison between the two data orchestration tools.

Rys. 2. Pokazuje liczbę unikalnych nazw w CA

Wariancja

W przypadku wartości liczbowych mamy wiele łatwych sposobów na uzyskanie podstawowych informacji, takich jak minimum, maksimum lub wariancja, które są bardzo przydatne. Wariancja daje dobrą wskazówkę dotyczącą rozchodu wartości między określoną zmienną.

Analiza Pareto

Ta technika eksploracji danych pozwala skupić się na tym, co jest naprawdę ważne. Reguła pareto 80-20 może skutecznie pokazać poziom, na którym obserwujemy znaczące znaczenie określonej wartości.

Bar chart showing unique value counts across specific states in the US, used for data exploration analysis.

Rys. 3. Pokazuje czas trwania wycieczki rowerowej w zależności od stacji startowej

Histogram

Daje informacje o zakresie wartości spadających w sektorze większościowym. Wskazuje wszelkie dane przekrzywione, a także minimalne i maksymalne.

Mapa ciepła korelacji

Korelacja oznacza zasadniczo związek między dwiema rzeczami. Przydatne jest wyrażanie relacji między różnymi kolumnami w danych. Jednym z najlepszych sposobów zobaczenia korelacji między kolumnami numerycznymi jest mapa ciepła. Korelacja może być jednak przydatna w przypadku różnych typów danych.

Bar chart displaying the frequency of unique names in California, offering insights into the content of categorical variables.

Rys. 4. Pokazuje czas trwania wycieczki rowerowej w zależności od stacji końcowej i daty urodzenia użytkownika

Korelacja Pearsona i trendy

Inną interesującą techniką eksploracji danych jest poszukiwanie korelacji i trendów Pearsona. Gdy już mamy mapę cieplną, możemy jej użyć, aby zobaczyć trend korelacji między dwiema kolumnami numerycznymi.

Korelacja Cramer-V

Cramer-V to technika eksploracji danych zapewniająca korelację między wszystkimi zmiennymi kategorycznymi. Wynik można również wizualizować za pomocą mapy cieplnej.

Korelacja par kolumn kategorycznych

Po sprawdzeniu korelacji między zmiennymi kategorycznymi z macierzą Cramera-V dalsza eksploracja może skupić się na określonych parach kolumn kategorycznych. Istnieje wiele sposobów wizualizacji, a fabuła bąbelkowa może być jednym z nich.

Analiza wielkości klastra

Taka analiza do celów eksploracji danych jest często stosowana w celu sprawdzenia ogromnych ilości danych, które są podzielone na różne grupy/klastry przed rzeczywistą analizą. Pierwszym krokiem w segmentacji będzie sprawdzenie rozmiaru klastra. Taka analiza pokaże nam, w jaki sposób dane można podzielić na różne grupy.

Grupowanie lub segmentacja

Po sprawdzeniu liczby klastrów musimy podzielić dane na określoną liczbę klastrów lub segmentów.

Wykrywanie odstających

Znalezienie nieprawidłowości podczas eksploracji danych nie jest czymś, czym powinniśmy się martwić. Niekoniecznie oznaczają coś negatywnego. Taka analiza pomaga podnieść jakość całej eksploracji. Wartości odstające liczbowe można znaleźć za pomocą odchylenia standardowego lub algorytmów, takich jak las izolacyjny.

Analiza wartości odstających dla określonej kolumny liczbowej

Po sprawdzeniu wartości minimalnych i maksymalnych dla kolumn numerycznych możemy analizować poszczególne.

Analiza wartości odstających dla wielu kolumn

Ważne jest, aby znaleźć odstęp na podstawie wielu kolumn (na poziomie wiersza). Wykres rozproszony będzie przydatnym narzędziem do takiej eksploracji. Pokazuje wartości odstające oznaczone innym kolorem.

Specjalistyczna wizualizacja

Większość przedstawionych powyżej wizualizacji to klasyczne, takie jak wykresy słupkowe, wykresy itp. Ale możemy użyć mniej popularnych narzędzi do eksploracji danych, które są specjalistycznymi wizualizacjami, takimi jak na przykład wykresy radarowe. Będzie to świetny sposób na zrozumienie danych i przeprowadzenie rzeczywistej eksploracji danych.

Wniosek

Eksploracja danych jest jednym z kluczowych punktów, aby uzyskać z nich pewną wartość. Zwizualizowane dane są łatwiejsze do zrozumienia i uzyskania pewnych informacji niż surowe liczby matematyczne zebrane w tabelach. Wszyscy znamy duże, nieustrukturyzowane wolumeny pochodzące z wielu źródeł. Techniki eksploracji danych są niezbędne, aby zapewnić nam rzeczywistą wartość danych, które następnie mogą być przetwarzane z dalszą analizą. Zapoznaj się z naszym blogiem, aby uzyskać więcej informacji na temat rozwiązań Data Pipeline:

Share this post

Data Analysis

Curious how we can support your business?

TALK TO US

More insights

More news

View all

Machine Learning

More insights

More news

Webinarium: Uczenie maszynowe w zarządzaniu kategoriami - z Lorenzem

Biegniemy razem dla znaczącego celu: Fun Run 2025

DS Stream na Śniadaniu AI w Lublinie