Migration von Datenpipelines und Datenbankstrukturen von Cloudera zu GCP-Diensten für ein weltweit führendes Unternehmen in der Konsumgüterindustrie

Challenge
Mehrere Datenquellen enthielten verschiedene halbstrukturierte Datentypen und litten unter Datenqualitätsproblemen. Ziel war es, die Kosteneffizienz von Kampagnen in linearen TV-Planungs- und Einkaufsprozessen durch den Bau von Pipelines mithilfe von Kubeflow-Diensten zu verbessern. Dieser Ansatz zielte darauf ab, die Gesamtsystemleistung zu optimieren, die Zuverlässigkeit der Datentransformation zu erhöhen und Python-basierte Werbeverfahren zu optimieren.


Our approach
Die aktuellen Datenpipelines wurden auf DataProc, GCS und Composer migriert. Um die Skalierbarkeit zu verbessern, haben wir den Python-Code zur Anzeigenoptimierung containerisiert, sodass wir erweiterbare Aufgaben auf Kubeflow ausführen können, das in GKE gehostet wird. Durch die Verwendung von Kubeflow-Pipelines und Knotenpools können wir Auftragsressourcen effizient verwalten und dabei die unterschiedlichen Anforderungen an Hardwareressourcen in verschiedenen Szenarien berücksichtigen. Dieser Ansatz ermöglicht es uns, die Ressourcennutzung zu optimieren und eine bessere Anpassung an die jeweils erforderlichen Workloads sicherzustellen.
The outcome
Cloudera-Datenpipelines wurden erfolgreich auf die GCP-Plattform migriert. Die neuen Datenpipelines wurden verbessert, um Kosteneffizienz und Wartungsfreundlichkeit zu gewährleisten. Schnelle Reaktionszeiten werden durch die Verwendung des BigQuery-Caches garantiert. Durch die Nutzung von GKE-, Kubeflow- und Docker-Images können Jobs auf verschiedenen Codeversionen und Hardwareressourcen ausgeführt werden. Der Prozess der Initiierung von Optimierungsjobs wurde durch die Nutzung von Cloud-Funktionen optimiert.


Business Impact
Die Migration zu GCP war ein Erfolg, was zu einer verbesserten Leistung, einer einfacheren Wartung und einer verbesserten Datenzuverlässigkeit führte. Dieser Erfolg wurde durch die Nutzung zuverlässiger nativer Cloud-Dienste ermöglicht. Dank Kubeflow, das auf GKE gehostet wird, wurde die Entwicklungszeit für Optimierungsaufträge erheblich reduziert. Infolgedessen werden die endgültigen Optimierungsjobs nun in einer Umgebung ausgeführt, die sowohl flexibel als auch robust und gleichzeitig kostenoptimiert ist.
"Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat."
Browse more projects
Lass uns reden und zusammenarbeiten
An Werktagen (Montag — Freitag, 9.00 — 17.00 Uhr MEZ) melden wir uns innerhalb von 4 Stunden bei Ihnen.

Partner für Servicebereitstellung