FMCG

Rationalisierung des Datenbetriebs mit einem metadatengesteuerten Data Lakehouse auf Azure

Client

Globales FMCG//CPG-Unternehmen

Date

Services

Datentechnik

Technologies

Databricks, Python, Azure, Spark, CI/CD (Azure DevOps/GitHub)

Challenge

Ein Fortune-500-FMCG-Unternehmen hatte mit seiner bestehenden Azure Databricks Data Lake-Lösung zu kämpfen, die von Komplexität, doppelten Datensätzen und mangelnder Struktur geplagt war. Das Unternehmen benötigte eine optimierte Lösung, um den Datenbetrieb zu vereinfachen, die Datenqualität zu verbessern und die Auffindbarkeit der Daten zu verbessern und gleichzeitig die Kosten zu optimieren.

Our approach

Unser Team hat ein transformatives Projekt gestartet, um den Azure Databricks-Data Lake des Kunden mithilfe der Medallion-Architektur auf ein metadatengestütztes Data Lakehouse zu migrieren. Durch die Nutzung von Databricks, Python, Azure und Spark implementierten wir eine skalierbare und organisierte Lösung, die die Medaillon-Struktur durchsetzte und die Datenqualität verbesserte, ohne die Arbeitsabläufe der Benutzer zu stören.

Zu den wichtigsten Komponenten der Lösung gehörten:

  • Ein metadatengesteuertes Framework für die Automatisierung von Datenpipelines, das Funktionen wie automatische Datenextraktion, Archivierung und Unterstützung für inkrementelles Laden umfasst.
  • Nahtlose Durchsetzung der Medaillonstruktur, die eine benutzerfreundliche Flexibilität gewährleistet.
  • Integration von Great Expectations für automatisierte Datenqualitätsprüfungen und -validierungen.

The outcome

Die Migration zu einem metadatengestützten Data Lakehouse führte zu erheblichen Verbesserungen der Auffindbarkeit und Benutzerfreundlichkeit von Daten. Die Medallion-Architektur bot eine klare Struktur, die es den Entwicklern von Citizen ermöglichte, direkt mit Datensätzen zu interagieren, was Selfservice-Analysen und Innovationen förderte.

Darüber hinaus senkten Automatisierungsfunktionen, einschließlich Datenextraktion, Archivierung und inkrementelles Laden, die Pipeline-Kosten erheblich und verbesserten die betriebliche Effizienz. Die Integration von Great Expectations stellte die Integrität und Zuverlässigkeit der Daten sicher und erfüllte die hohen Qualitätsstandards.