Wszyscy mamy do czynienia z ogromnymi datasets surowych danych pochodzących z wielu źródeł. Często konieczne jest ich „czyszczenie” poprzez zastosowanie określonych reguł, wzorców dat, timestamps itp. do każdego typu danych. Data exploration to proces, który pomoże Twoim ekspertom lepiej poznać gromadzone na bieżąco informacje biznesowe i wykorzystywać je efektywniej.
W skrócie, data exploration to przycinanie danych w celu usunięcia nieużytecznych części i identyfikacji potencjalnych relacji między różnymi typami danych. Możemy to osiągnąć zarówno manualnie, jak i automatycznie, korzystając z opisanych poniżej technik eksploracji i przykładów analizy danych – co pozwoli zamienić nasze dane w kopalnię informacji.
Dlaczego Data Exploration jest ważne?
Data exploration umożliwia głębsze zrozumienie zgromadzonych datasets, ale to nie wszystko. Poznając lepiej swoje dane, analitycy stają się bardziej efektywni w poruszaniu się po nich i wykorzystywaniu ich w przyszłości. To także praktyczny proces pozwalający zawęzić datasets do zarządzalnego rozmiaru i zoptymalizować analizę.
Data Exploration krok po kroku
Najważniejsze jest zrozumienie, że wysoka jakość danych wejściowych jest kluczowa dla uzyskania dobrej jakości wyników. Przed rozpoczęciem właściwej eksploracji danych należy przeprowadzić data cleaning oraz normalization (np. jeśli masz dane z sensorów z całego świata, ale wartości są w różnych skalach temperatury, jednostkach itp.). Te kroki wstępne są niezbędne, by późniejsza analiza danych przyniosła wiarygodne business insights.
Na początku należy zidentyfikować typ wejścia i wyjścia, kategorie i zmienne, które muszą być jasno określone. Następny krok to szczegółowa eksploracja każdej zmiennej. Metody analizy zależą od typu zmiennych – categorical lub continuous. Dla zmiennych categorical stosuje się frequency table pokazującą procentowy udział wartości, by zrozumieć rozkład kategorii. Dla zmiennych continuous analizujemy rozrzut i tendencję centralną – rozproszenie przez range, quartile, standard deviation, variance; tendencję centralną przez min, max, mean, median itd. Często obserwacje można łatwo uzyskać dzięki wizualizacjom, takim jak histograms czy plots. Narzędzia do data visualization są bardzo pomocne podczas eksploracji i pozwalają znaleźć istotne relacje lub anomalie w datasets.
Relacje między różnymi zmiennymi również muszą być analizowane. Association i disassociation między zdefiniowanymi zmiennymi rozpatruje się w następujących kombinacjach:
- Categorical i continuous: rysujemy box plots dla każdej zmiennej categorical.
- Continuous i continuous: relację (liniową lub nieliniową) określamy analizując dwie zmienne continuous za pomocą scatter plot z uwzględnieniem zmiennej categorical.
- Categorical i categorical: najprościej uzyskać wgląd za pomocą two-way table lub stacked column chart.

Techniki Data Exploration
Istnieje wiele technik data exploration, które analitycy wykorzystują, by lepiej poznać datasets firmy. W zależności od typu danych, niektóre z nich będą bardziej, inne mniej trafne. Wybór odpowiedniej techniki jest kluczowy, by wydobyć wartościowe informacje z dataset.
Przykłady:
- Unique value count
Pokazuje, ile unikalnych wartości znajduje się w każdej kolumnie categorical. Daje ogólne pojęcie o charakterze danych. - Frequent value count
Pozwala wykryć, jak często poszczególne wartości występują w danej kolumnie. Daje wgląd w zawartość każdej zmiennej categorical. - Variance
Dla wartości numerycznych łatwo uzyskać podstawowe informacje, takie jak minimum, maximum czy variance, które pokazuje rozrzut wartości. - Pareto analysis
Technika pozwalająca skupić się na tym, co najważniejsze. Zasada 80-20 (pareto rule) pokazuje, gdzie obserwujemy największe znaczenie danej wartości. - Histogram
Pokazuje zakres wartości dominujących w zbiorze. Wskazuje na skew data oraz minimum i maximum. - Correlation heat-map
Pokazuje powiązania między kolumnami numerycznymi. Najlepiej wizualizować korelacje za pomocą heat-map. - Pearson correlation and trends
Analiza trendów i korelacji Pearsona między dwiema kolumnami numerycznymi. - Cramer-V correlation
Technika do badania korelacji między wszystkimi zmiennymi categorical. Wynik można zwizualizować jako heat-map. - Categorical columns pair correlation
Po sprawdzeniu korelacji Cramer-V można skupić się na konkretnych parach kolumn categorical, np. za pomocą bubble plot. - Cluster size analysis
Analiza wielkości klastrów przy dużych zbiorach danych, które są dzielone na grupy przed analizą właściwą. - Clustering or Segmentation
Po określeniu liczby klastrów dzielimy dane na konkretne segmenty. - Outlier detection
Wykrywanie anomalii (outliers) nie zawsze oznacza coś negatywnego – pomaga poprawić jakość eksploracji. Outliers można znaleźć przez standard deviation lub algorytmy jak Isolation forest. - Outlier analysis for specific numeric column
Po sprawdzeniu min i max analizujemy poszczególne wartości. - Outlier analysis for multiple columns
Warto wykrywać outliers na poziomie wiersza, korzystając np. ze scatter plot. - Specialized visualisation
Oprócz klasycznych wykresów można użyć specjalistycznych narzędzi, np. radar charts.



Podsumowanie
Data exploration to kluczowy etap, by wydobyć wartość z danych. Zwizualizowane dane są łatwiejsze do zrozumienia i interpretacji niż surowe liczby w tabelach. Wszyscy znamy problem dużych, nieustrukturyzowanych wolumenów z wielu źródeł. Techniki data exploration są niezbędne, by wydobyć z nich wartość, która może być dalej analizowana.