Wir alle sind mit riesigen Datensätzen von Rohdaten konfrontiert, die aus mehreren Quellen stammen. Oft ist es notwendig, sie zu „bereinigen“, indem bestimmte Regeln, Muster von Daten, Zeitstempeln usw. auf jeden Datentyp angewendet werden. Die Datenexploration ist ein Prozess, der Ihren Experten dabei hilft, mehr über Geschäftsinformationen zu erfahren, die Sie ständig sammeln, und diese effizienter zu nutzen. Kurzfristig gesehen bedeutet Datenexploration das Bereinigen von Daten, um unbrauchbare Teile zu entfernen und potenzielle Beziehungen zwischen verschiedenen Datentypen zu identifizieren. Mit den unten beschriebenen Explorationstechniken und Datenanalysebeispielen können wir dies sowohl manuell als auch automatisch bewerkstelligen. So werden unsere Daten zu einer wahren Fundgrube an Informationen.
Warum ist Datenexploration wichtig?
Die Datenexploration ermöglicht ein tieferes Verständnis der gesammelten Datensätze, aber es steckt noch mehr dahinter. Indem Datenanalysten ihre Daten besser kennenlernen, können sie auch effizienter durch die Daten navigieren und sie in Zukunft verwenden. Es ist auch ein praktischer Prozess, den Sie durchführen müssen, um Datensätze auf eine überschaubare Größe einzugrenzen und Ihre Analyse zu optimieren.
Datenerkundung Schritt für Schritt
Es ist äußerst wichtig zu verstehen, dass eine hohe Qualität der Eingabedaten entscheidend für eine gute Outputqualität ist, bevor mit dem eigentlichen Datenexplorationsprozess begonnen wird. Bevor Sie mit der Erkundung von Datensätzen beginnen, sollten Sie die Daten bereinigen und normalisieren (z. B. haben Sie Sensordaten, die auf der ganzen Welt gesammelt wurden, aber die angegebenen Werte liegen in unterschiedlichen Temperaturskalen, Messwerten usw. vor). Die erforderlichen Schritte sind entscheidend, wenn Sie mit der eigentlichen Datenanalyse beginnen, um zuverlässige Geschäftseinblicke zu erhalten. Zu Beginn müssen wir Eingabe- und Ausgabetypen, Kategorien und Variablen identifizieren, die klar definiert werden müssen. Der nächste Schritt der Datenanalyse wird sich auf die spezifische Untersuchung der einzelnen Variablen beziehen. Die für eine solche Analyse verwendeten Methoden können auf der Grundlage der Art der Variablen — kategorisch oder kontinuierlich — festgelegt werden. Für kategoriale Variablen muss eine Häufigkeitstabelle verwendet werden, die den Prozentsatz der Werte anhand der Metriken Anzahl und Count% darstellt, um die Verteilung der einzelnen Kategorien zu verstehen. Bei den kontinuierlichen Variablen müssen wir die Streuung und die zentrale Tendenz verstehen. Die Streuung kann anhand von Spannweite, Quartil, Standardabweichung, Varianz usw. überprüft werden, während wir für zentrale Tendenzen hauptsächlich Min, Maximum, Mittelwert, Median usw. verwenden. Normalerweise können wir unsere Beobachtungen leicht mit Visualisierungsmethoden wie Histogrammen oder Diagrammen durchführen. Tools zur Datenvisualisierung können bei der Datenexploration nützlich sein und Ihnen helfen, signifikante Zusammenhänge oder Anomalien in Datensätzen zu finden. Beziehungen zwischen verschiedenen Variablen müssen ebenfalls analysiert werden. Assoziation und Dissoziation zwischen vordefinierten Variablen werden in den folgenden Kombinationen berücksichtigt:
- Kategorial und kontinuierlich: Boxplots für jede zu zeichnende kategoriale Variable.
- Kontinuierlich und kontinuierlich: Die lineare oder nichtlineare Beziehung wird definiert, indem eine Analyse zwischen zwei kontinuierlichen Variablen mit einem Streudiagramm der kategorialen Variablen durchgeführt wird.
- Kategorisch und kategorisch: Der einfachste Weg, einige Erkenntnisse zu gewinnen, ist die Verwendung einer bidirektionalen Tabelle oder eines gestapelten Säulendiagramms.
Techniken zur Datenerkundung
Es gibt mehrere Datenexplorationstechniken, die Ihre Datenanalysten verwenden, um mehr über die Datensätze Ihres Unternehmens zu erfahren. Je nach Datentyp kann die Auswahl einiger von ihnen mehr oder weniger genau sein. Bevor Sie mit der eigentlichen Datenexploration beginnen, ist es von entscheidender Bedeutung, zu definieren, welche Technik am besten geeignet ist und am hilfreichsten ist, um wertvolle Informationen aus dem Datensatz abzurufen. Hier sind einige Beispiele, die bei der endgültigen Entscheidung helfen könnten.
- Anzahl eindeutiger Werte
Dies ist eine erste Sache, die bei der Erkundung nützlich sein kann, da sie zeigt, wie viele Einzelwerte pro kategorialer Spalte enthalten sind. Dies gibt uns eine allgemeine Vorstellung davon, worum es bei den Daten geht.

Abb. 1. Zeigt die Anzahl der eindeutigen Namen in einem bestimmten Bundesstaat der USA
- Anzahl häufiger Werte
Ermitteln, wie häufig einzelne Werte in einer bestimmten Spalte vorkommen. Dies gibt einen Einblick in den Inhalt jeder kategorialen Variablen.

Abb. 2. Zeigt die Anzahl der eindeutigen Namen in der gesamten CA
- Varianz
Für numerische Werte haben wir viele einfache Möglichkeiten, einige grundlegende Informationen zu erhalten, wie Minimum, Maximum oder Varianz, die sehr nützlich sind. Die Varianz gibt einen guten Hinweis auf die Streuung der Werte über eine bestimmte Variable.
- Pareto-Analyse
Mit dieser Datenexplorationstechnik können Sie sich auf das konzentrieren, was wirklich wichtig ist. Die 80-20-Pareto-Regel kann effektiv zeigen, auf welcher Ebene wir eine signifikante Bedeutung eines bestimmten Werts beobachten.

Abb. 3. Zeigt die Dauer der Radtour je nach Startstation
- Histogramm
Gibt Auskunft über den Wertebereich, der im Mehrheitssektor fällt. Es zeigt alle schiefen Daten sowie Mindest- und Höchstwerte an.
- Korrelations-Heatmap
Korrelation bedeutet im Grunde eine Assoziation zwischen zwei Dingen. Es ist nützlich, Beziehungen zwischen verschiedenen Spalten in Daten auszudrücken. Eine der besten Methoden, um die Korrelation zwischen numerischen Spalten zu erkennen, ist die Heatmap. Korrelation kann jedoch bei verschiedenen Datentypen nützlich sein.

Abb. 4. Zeigt die Dauer der Radtour in Abhängigkeit von der Endstation und dem Geburtsdatum des Benutzers
- Korrelation und Trends nach Pearson
Eine weitere interessante Technik zur Datenexploration ist die Suche nach Korrelationen und Trends nach Pearson. Sobald wir eine Heatmap haben, können wir sie verwenden, um den Korrelationstrend zwischen zwei numerischen Spalten zu sehen.
- Cramer-V-Korrelation
Cramer-V ist eine Datenexplorationstechnik, die eine Korrelation zwischen allen kategorialen Variablen ermöglicht. Das Ergebnis kann auch mit einer Heatmap visualisiert werden.
- Korrelation von kategorialen Spaltenpaaren
Nachdem wir die Korrelation zwischen kategorialen Variablen mit der Cramer-V-Matrix überprüft haben, können sich weitere Untersuchungen auf bestimmte Paare kategorialer Spalten konzentrieren. Es gibt viele Möglichkeiten der Visualisierung, und das Blasendiagramm kann eine davon sein.
- Analyse der Clustergröße
Solche Analysen für Datenexplorationszwecke werden häufig verwendet, um große Datenmengen zu überprüfen, die vor der eigentlichen Analyse in verschiedene Gruppen/Cluster aufgeteilt werden. Der erste Schritt bei der Segmentierung wird die Überprüfung der Clustergröße sein. Eine solche Analyse wird uns zeigen, wie Daten in verschiedene Gruppen aufgeteilt werden können.
- Clustering oder Segmentierung
Nachdem wir die Anzahl der Cluster überprüft haben, müssen wir die Daten in eine bestimmte Anzahl von Clustern oder Segmenten unterteilen.
- Erkennung von Ausreißern
Das Auffinden von Auffälligkeiten bei der Datenexploration ist nichts, worüber wir uns Sorgen machen sollten. Sie bedeuten nicht unbedingt etwas Negatives. Eine solche Analyse trägt dazu bei, die Qualität der gesamten Explorationsarbeit zu verbessern. Ausreißer bei numerischen Werten können mithilfe von Standardabweichungen oder Algorithmen wie Isolation Forest gefunden werden.
- Ausreißeranalyse für eine bestimmte numerische Spalte
Nachdem wir die Minimal- und Maximalwerte für numerische Spalten überprüft haben, können wir einzelne Spalten analysieren.
- Ausreißeranalyse für mehrere Spalten
Es ist wichtig, Ausreißer anhand mehrerer Spalten (auf Zeilenebene) zu finden. Das Streudiagramm wird für solche Erkundungen ein nützliches Werkzeug sein. Es werden Ausreißer angezeigt, die mit einer anderen Farbe markiert sind.
- Spezialisierte Visualisierung
Bei den meisten der oben gezeigten Visualisierungen handelt es sich um klassische Visualisierungen wie Balkendiagramme, Diagramme usw. Wir können jedoch auch weniger gebräuchliche Tools zur Datenexploration verwenden, bei denen es sich um spezialisierte Visualisierungen wie zum Beispiel Radardiagramme handelt. Es wird eine großartige Möglichkeit sein, Daten zu verstehen und die eigentliche Datenexploration durchzuführen.
Fazit
Die Erkundung von Daten ist einer der wichtigsten Punkte, um daraus einen gewissen Nutzen zu ziehen. Visualisierte Daten sind einfacher zu verstehen und bieten einen besseren Einblick als in Tabellen zusammengefasste mathematische Rohzahlen. Wir alle kennen große, unstrukturierte Datenmengen, die aus verschiedenen Quellen stammen. Datenexplorationstechniken sind notwendig, um den tatsächlichen Wert der Daten zu ermitteln, die dann für weitere Analysen verarbeitet werden können. Weitere Informationen zu Data Pipeline-Lösungen finden Sie in unserem Blog: