Wszyscy mamy do czynienia z ogromnymi zbiorami danych surowych pochodzących z wielu źródeł. Często konieczne jest ich „oczyszczenie” poprzez zastosowanie określonych reguł wzorców dat, znaczników czasu itp. do każdego rodzaju danych. Eksploracja danych to proces, który pomoże Twoim ekspertom dowiedzieć się więcej o informacjach biznesowych, które zbierasz przez cały czas i efektywniej je wykorzystywać.W krótkim okresie eksploracja danych polega na przycinaniu danych w celu usunięcia nieprzydatnych części i zidentyfikowania potencjalnych relacji między różnymi typami danych. Możemy to osiągnąć zarówno w sposób ręczny, jak i automatyczny dzięki opisanym poniżej technikom eksploracji i przykładom analizy danych - dzięki czemu nasze dane staną się kopalnią złota informacji.
Dlaczego eksploracja danych jest ważna?
Eksploracja danych umożliwia głębsze zrozumienie zebranych zbiorów danych, ale jest w tym coś więcej. Dzięki lepszemu poznaniu swoich danych analitycy danych stają się również bardziej wydajni w nawigacji po danych i wykorzystywaniu ich w przyszłości. Jest to również praktyczny proces do wykonania w celu zawężenia zbiorów danych do możliwego do zarządzania rozmiaru, optymalizacji analizy.
Eksploracja danych krok po kroku
Najważniejsze jest zrozumienie, że wysoka jakość danych wejściowych ma kluczowe znaczenie dla osiągnięcia dobrej jakości wyjścia przed przejściem do rzeczywistego procesu eksploracji danych. Przed rozpoczęciem eksploracji zbioru danych należy przeprowadzić czyszczenie i normalizację danych (na przykład dane z czujników są zebrane na całym świecie, ale podane wartości są w różnych skalach temperatury, metryk itp.). Kroki wstępne będą miały kluczowe znaczenie przy rozpoczęciu analizy rzeczywistych danych w celu uzyskania wiarygodnych wniosków biznesowych.Na początku musimy zidentyfikować typ wejścia i wyjścia, kategorie i zmienne, które muszą być jasno zdefiniowane. Następny etap eksploracji danych będzie związany z konkretną eksploracją każdej zmiennej. Metody stosowane do takiej analizy można określić na podstawie rodzaju zmiennych — kategorycznych lub ciągłych. W przypadku zmiennych kategorycznych do zrozumienia rozkładu poszczególnych kategorii należy użyć tabeli częstotliwości przedstawiającej procent wartości według metryk liczby i liczbowy%. Dzięki zmiennym ciągłym musimy zrozumieć rozprzestrzenianie się i tendencję centralną. Dyspersja może być sprawdzana poprzez zakres, kwartyl, odchylenie standardowe, wariancję itp. podczas gdy dla tendencji centralnej użyjemy głównie min, max, średniej, mediany itp. Zwykle możemy łatwo wykonywać nasze obserwacje metodami wizualizacji, takimi jak histogramy lub wykresy. Narzędzia do wizualizacji danych mogą być przydatne podczas eksploracji danych i pomóc w znalezieniu istotnych relacji lub anomalii w zbiorach danych.Należy również przeanalizować relacje między różnymi zmiennymi. Związek i rozłączenie między wstępnie zdefiniowanymi zmiennymi są rozważane w następujących kombinacjach:
- Kategoryczne i ciągłe: wykresy ramkowe dla każdej zmiennej kategorycznej, która ma zostać narysowana.
- Ciągły i ciągły: zależność liniowa lub nieliniowa zostanie zdefiniowana przez przeprowadzenie analizy między dwiema zmiennymi ciągłymi z wykresem rozproszenia zmiennej kategorycznej.
- Kategoryczne i kategoryczne: najłatwiejszym sposobem uzyskania pewnych spostrzeżeń będzie użycie dwukierunkowej tabeli lub skumulowanego wykresu kolumnowego.
Techniki eksploracji danych
Istnieje wiele technik eksploracji danych, których analitycy danych używają, aby dowiedzieć się więcej o zbiorach danych Twojej firmy. W zależności od typu danych niektóre z nich mogą być mniej lub bardziej dokładne do wyboru. Zdefiniowanie, która technika najlepiej pasuje i będzie najbardziej pomocna w pobieraniu cennych informacji ze zbioru danych, ma kluczowe znaczenie przed przejściem do rzeczywistej eksploracji danych. Oto kilka przykładów, które mogą pomóc w podjęciu ostatecznej decyzji.
- Unikalna liczba wartości
Jest to pierwsza rzecz, która może być przydatna podczas eksploracji, pokazując, ile unikalnych wartości jest zawartych w kolumnie kategorycznej. To da nam ogólne wyobrażenie o tym, o czym są dane.

Rys. 1. Pokazuje liczbę unikalnych nazw w określonym stanie w USA
- Częsta liczba wartości
Wykrywanie częstotliwości występowania poszczególnych wartości w określonej kolumnie. Daje to wgląd w treść każdej zmiennej kategorycznej.

Rys. 2. Pokazuje liczbę unikalnych nazw w CA
- Wariancja
W przypadku wartości liczbowych mamy wiele łatwych sposobów na uzyskanie podstawowych informacji, takich jak minimum, maksimum lub wariancja, które są bardzo przydatne. Wariancja daje dobrą wskazówkę dotyczącą rozchodu wartości między określoną zmienną.
- Analiza Pareto
Ta technika eksploracji danych pozwala skupić się na tym, co jest naprawdę ważne. Reguła pareto 80-20 może skutecznie pokazać poziom, na którym obserwujemy znaczące znaczenie określonej wartości.

Rys. 3. Pokazuje czas trwania wycieczki rowerowej w zależności od stacji startowej
- Histogram
Daje informacje o zakresie wartości spadających w sektorze większościowym. Wskazuje wszelkie dane przekrzywione, a także minimalne i maksymalne.
- Mapa ciepła korelacji
Korelacja oznacza zasadniczo związek między dwiema rzeczami. Przydatne jest wyrażanie relacji między różnymi kolumnami w danych. Jednym z najlepszych sposobów zobaczenia korelacji między kolumnami numerycznymi jest mapa ciepła. Korelacja może być jednak przydatna w przypadku różnych typów danych.

Rys. 4. Pokazuje czas trwania wycieczki rowerowej w zależności od stacji końcowej i daty urodzenia użytkownika
- Korelacja Pearsona i trendy
Inną interesującą techniką eksploracji danych jest poszukiwanie korelacji i trendów Pearsona. Gdy już mamy mapę cieplną, możemy jej użyć, aby zobaczyć trend korelacji między dwiema kolumnami numerycznymi.
- Korelacja Cramer-V
Cramer-V to technika eksploracji danych zapewniająca korelację między wszystkimi zmiennymi kategorycznymi. Wynik można również wizualizować za pomocą mapy cieplnej.
- Korelacja par kolumn kategorycznych
Po sprawdzeniu korelacji między zmiennymi kategorycznymi z macierzą Cramera-V dalsza eksploracja może skupić się na określonych parach kolumn kategorycznych. Istnieje wiele sposobów wizualizacji, a fabuła bąbelkowa może być jednym z nich.
- Analiza wielkości klastra
Taka analiza do celów eksploracji danych jest często stosowana w celu sprawdzenia ogromnych ilości danych, które są podzielone na różne grupy/klastry przed rzeczywistą analizą. Pierwszym krokiem w segmentacji będzie sprawdzenie rozmiaru klastra. Taka analiza pokaże nam, w jaki sposób dane można podzielić na różne grupy.
- Grupowanie lub segmentacja
Po sprawdzeniu liczby klastrów musimy podzielić dane na określoną liczbę klastrów lub segmentów.
- Wykrywanie odstających
Znalezienie nieprawidłowości podczas eksploracji danych nie jest czymś, czym powinniśmy się martwić. Niekoniecznie oznaczają coś negatywnego. Taka analiza pomaga podnieść jakość całej eksploracji. Wartości odstające liczbowe można znaleźć za pomocą odchylenia standardowego lub algorytmów, takich jak las izolacyjny.
- Analiza wartości odstających dla określonej kolumny liczbowej
Po sprawdzeniu wartości minimalnych i maksymalnych dla kolumn numerycznych możemy analizować poszczególne.
- Analiza wartości odstających dla wielu kolumn
Ważne jest, aby znaleźć odstęp na podstawie wielu kolumn (na poziomie wiersza). Wykres rozproszony będzie przydatnym narzędziem do takiej eksploracji. Pokazuje wartości odstające oznaczone innym kolorem.
- Specjalistyczna wizualizacja
Większość przedstawionych powyżej wizualizacji to klasyczne, takie jak wykresy słupkowe, wykresy itp. Ale możemy użyć mniej popularnych narzędzi do eksploracji danych, które są specjalistycznymi wizualizacjami, takimi jak na przykład wykresy radarowe. Będzie to świetny sposób na zrozumienie danych i przeprowadzenie rzeczywistej eksploracji danych.
Wniosek
Eksploracja danych jest jednym z kluczowych punktów, aby uzyskać z nich pewną wartość. Zwizualizowane dane są łatwiejsze do zrozumienia i uzyskania pewnych informacji niż surowe liczby matematyczne zebrane w tabelach. Wszyscy znamy duże, nieustrukturyzowane wolumeny pochodzące z wielu źródeł. Techniki eksploracji danych są niezbędne, aby zapewnić nam rzeczywistą wartość danych, które następnie mogą być przetwarzane z dalszą analizą. Zapoznaj się z naszym blogiem, aby uzyskać więcej informacji na temat rozwiązań Data Pipeline: