Unity Catalog und Volumes: Die Sicht eines Data Engineers auf modernes Data Governance in Databricks

Michal Milosz
Michal Milosz
July 28, 2025
6 min read
Loading the Elevenlabs Text to Speech AudioNative Player...

Im sich ständig wandelnden Datenumfeld suchen Organisationen kontinuierlich nach robusten, skalierbaren und sicheren Wegen, um ihre ständig wachsenden Datenbestände zu verwalten. Für Dateningenieure bedeutet dies häufig die Notwendigkeit, ein Gleichgewicht zu finden: Daten schnell und präzise bereitzustellen und gleichzeitig ihre Auffindbarkeit, Compliance und Sicherheit zu gewährleisten. Genau hier kommen Databricks Unity Catalog und das leistungsstarke Werkzeug Volumes ins Spiel und revolutionieren das Datenmanagement im Databricks Lakehouse Platform-Umfeld.

Herausforderungen beim Datenmanagement in verteilten Umgebungen
Vor der Einführung des Unity Catalog war das Management von Datenzugriff, Auditing und Auffindbarkeit in verschiedenen Databricks-Workspaces fragmentiert. Jeder Workspace hatte häufig seinen eigenen, unabhängigen Hive Metastore, was es erschwerte, einheitliche Sicherheitsrichtlinien durchzusetzen, die Datenherkunft zu verfolgen oder vorhandene Datenbestände zu identifizieren. Dies führte zu entscheidenden Problemen:

  • Datenisolation und inkonsistente Metadaten: Datenbestände waren über verschiedene Workspaces verstreut, jeder mit eigenen Definitionen, was eine ganzheitliche Sicht erschwerte und die Zusammenarbeit behinderte. Metadaten zu Tabellen, Views und Schemata waren jeweils an einen einzelnen Workspace gebunden, zentrale Verwaltung war kaum möglich.
  • Manuelle und fehleranfällige Sicherheitskonfigurationen: Konsistente Zugriffskontrolle quer über alle Workspaces erforderte manuellen Aufwand, führte zu Inkonsistenzen, Sicherheitslücken und erhöhtem Betriebsaufwand. Das Zuweisen oder Entziehen von Berechtigungen für Nutzer auf allen relevanten Daten war mühsam und fehleranfällig.
  • Fehlende Datenauffindbarkeit und Vertrauen: Ohne zentralen Katalog hatten Analysten und Data Scientists Schwierigkeiten, relevante Datensätze zu finden – sie wussten weder, welche Daten existierten, wo sie gespeichert waren, noch ob diese vertrauenswürdig oder aktuell waren. Das erschwerte die Nutzung und untergrub das Vertrauen in die Datenbasis.
  • Komplexes Auditing und Compliance: Nachzuvollziehen, wer welche Daten wann und zu welchem Zweck genutzt hatte, war praktisch unmöglich. Das Fehlen einer einheitlichen Auditspur stellte große Herausforderungen für regulatorische Anforderungen (z.B. DSGVO, CCPA) und das interne Sicherheitsmonitoring dar.
  • Keine durchgehende Verwaltung unstrukturierter Daten: Während Delta Lake beim Management von strukturierten Daten sehr leistungsstark war, wurden unstrukturierte Dateien (Bilder, Audio, Dokumente) oft separat mit eigenen Schutzmaßnahmen gespeichert, wodurch eine Governance-Lücke entstand.

Diese Herausforderungen sind in modernen Data Lakes, in denen neben relationalen Strukturen riesige Mengen unstrukturierter Dateien entstehen, besonders ausgeprägt.

Unity Catalog: Die vereinheitlichte Governance-Schicht
Unity Catalog adressiert diese Probleme direkt, indem er eine zentralisierte, konsistente Governance für alle Daten über mehrere Databricks-Workspaces hinweg innerhalb einer Azure-Region bietet. Unity Catalog ist die oberste Schicht der Ressourcenstruktur (Katalog → Schema → Tabelle oder Volume) und liefert eine zentrale Quelle für Metadaten, Zugriffspolitiken und Audit-Logs.

Wichtigste Vorteile für Dateningenieure:

  • Zentralisierte Zugriffskontrolle: Berechtigungen lassen sich granular auf Katalog-, Schema-, Tabellen-, View-, Zeilen- oder Spalten-Ebene via standardmäßigen ANSI SQL GRANT/REVOKE-Befehlen vergeben. Die Berechtigungen gelten automatisch über alle mit dem Unity Catalog Metastore verbundenen Workspaces hinweg, was wiederholte Konfigurationen überflüssig macht.
  • Beispiel: Sie können der Gruppe data_analysts das SELECT-Recht auf die Tabelle sales.customers zuweisen – dieses Recht gilt dann überall, ohne Zusatzkonfiguration.
  • Automatische Datenkatalogisierung und Auffindbarkeit: Metadaten werden automatisch bei der Verarbeitung und Registrierung von Daten erfasst, was das Entdecken und Verstehen der Daten mit dem intuitiven Data Explorer vereinfacht.
  • Integriertes Auditing: Unity Catalog protokolliert sämtliche Datenvorgänge – Zugriff, Erstellung, Änderung, Löschung – einschließlich wer, wann und wie zugegriffen wurde. So können regulatorische Anforderungen und Sicherheitsüberwachung mühelos erfüllt werden.
  • Automatisches Data Lineage Tracking: Unity Catalog verfolgt die Transformationsschritte und Datenflüsse durch Pipelines automatisch. Das erleichtert das Nachvollziehen von Herkunft und Abhängigkeiten, Qualitätsanalysen und das Abschätzen von Schemaänderungsfolgen.
  • Interoperabilität mit offenen Formaten: Unity Catalog unterstützt Delta Lake, Parquet, CSV und weitere Formate, sodass Daten portierbar bleiben und sich einfach in externe Quellen wie Azure Data Lake Storage Gen2 integrieren lassen.

Volumes: Präzise Verwaltung von unstrukturierten Daten
Obwohl Unity Catalog beim Management von Tabellendaten überzeugt, müssen moderne Plattformen zunehmend mit Dateien außerhalb klassischer Tabellenstrukturen umgehen. Dafür gibt es Volumes – verwaltete und kontrollierte Speicherorte innerhalb eines Unity Catalog-Schemas, die für nicht-tabellarische Daten (z.B. Bilder, Audiodateien, Dokumente) gedacht sind.

Mit Volumes werden Cloud-Dateien (z.B. aus ADLS Gen2) zu gleichberechtigten Assets im Lakehouse, denen dieselben Governance- und Sicherheitsrichtlinien wie Tabellen zugewiesen werden können. Zugriffsrechte und Dateioperationen lassen sich direkt über Databricks steuern.

Beispiel: Ein Engineer erstellt ein Volume raw_data_catalog.ingestion_schema.images_volume, lädt die Dateien hoch und vergibt an eine Benutzergruppe Lese- oder Schreibrechte. Die Verwaltung und Zugriffsüberwachung auf Dateien ist dadurch vereinheitlicht und effizient.

Schematische Darstellung:
Metastore → Katalog → Schema
     │——> Tabellen („Customers“, „Orders“)
     └——> Volumes („Images“, „Log_Files“, „ML_Models“)

Vereinfachter Workflow für Data Engineers dank Unity Catalog und Volumes

  1. Rohdaten-Ingestion: Dateien werden in einen ADLS Gen2-Container geladen. Sie erstellen ein Volume im Unity Catalog, das auf diesen Speicher verweist – damit sind Auditierbarkeit und zentrale Kontrolle gewährleistet.
  2. Daten-Transformation (ETL/ELT): Verarbeitungscode bezieht sich logisch auf das Volume, nicht auf Storagepfade. Transformierte Daten landen als Delta-Tabellen, die ebenfalls über Unity Catalog verwaltet werden.
  3. Granulares Sicherheitsmanagement: Durch die Kombination von Tabellen und Volumes im Unity Catalog können Sie differenzierte Berechtigungen vergeben – etwa erhält das Finanzteam Zugriff auf aggregierte, nicht-sensible Tabellen, während das Data-Science-Team Leserechte für Rohdaten-Volumes zur Modell-Entwicklung bekommt.
  4. Datenkonsum und Auditing: Nutzer entdecken Daten mittels Data Explorer, und jede Interaktion – vom Lesen von Dateien bis zu Tabellenauswertungen – wird protokolliert und ist für Auditzwecke verfügbar.

Die Zukunft der Datenverwaltung ist vereinheitlicht und automatisiert
Unity Catalog und Volumes setzen neue Standards im Datenmanagement – durch die Zentralisierung von Metadaten, Zugriffskontrolle und Auditing werden selbst komplexe Compliance-Anforderungen vereinfacht, Datenqualität und Vertrauen erhöht und die Time-to-Value verkürzt. Ihr Einsatz ermöglicht es Dateningenieuren, sich auf die Wertschöpfung zu konzentrieren statt auf die Verwaltung zerstreuter, veralteter Systeme. Organisationen sind so in der Lage, das volle Potenzial moderner Lakehouse-Architekturen zu nutzen, in denen Governance das Fundament der gesamten Datenlandschaft und kein nachträglicher Zusatz ist.

Share this post
Data Engineering
Michal Milosz
MORE POSTS BY THIS AUTHOR
Michal Milosz

Curious how we can support your business?

TALK TO US