Databricks hat ein neues ETL-Framework mit dem Namen Delta Live Tables vorgestellt, das ab sofort allgemein auf den Plattformen Microsoft Azure, AWS und Google Cloud verfügbar ist.
Nach Angaben des Data-Lake- und Warehouse-Anbieters verwendet Delta Live Tables einen einfachen deklarativen Ansatz für den Aufbau zuverlässiger Datenpipelines und die automatische Verwaltung der zugehörigen Infrastruktur in großem Maßstab, wodurch die Zeit, die Dateningenieure und Wissenschaftler für komplexe operative Aufgaben benötigen, erheblich reduziert wird.
"Tabellenstrukturen sind in Datenbanken und im Datenmanagement weit verbreitet. Delta Live Tables sind ein Upgrade für die Multicloud-Databricks-Plattform, die das Erstellen, Verwalten und Planen von Pipelines auf eine automatisierte und weniger code-intensive Weise unterstützt", sagt Doug Henschen, Principal Analyst bei Constellation Research.
Indem Databricks das Authoring durch SQL-ähnliche Anweisungen programmierfreundlich und deklarativ gestaltet, will es die Einstiegshürden für komplexe Datenarbeiten wie die Pflege von ETL-Pipelines senken.
"Je größer ein Unternehmen ist, desto wahrscheinlicher ist es, dass es mit all den Code-Schreib- und technischen Herausforderungen zu kämpfen hat, die mit dem Aufbau, der Wartung und dem Betrieb unzähliger Datenpipelines verbunden sind", so Henschen. "Delta Live Tables zielt darauf ab, einen Großteil der Codierungs-, Verwaltungs- und Optimierungsarbeiten zu vereinfachen und zu automatisieren und damit einen reibungslosen Datenfluss zu gewährleisten."
Data Lakes stecken noch in den Kinderschuhen
Henschen warnte jedoch, dass die Kombination von Data-Lake- und Data-Warehouse-Plattformen in Unternehmensumgebungen noch in den Kinderschuhen stecke. "Wir sehen mehr Greenfield-Implementierungen und Experimente für neue Anwendungsfälle als direkte Ersetzungen bestehender Data Lakes und Data Warehouses", sagte er und fügte hinzu, dass DLT Konkurrenz durch das Open-Source-Projekt Apache Iceberg hat.
"Im Bereich des Datenmanagements und insbesondere der analytischen Datenpipelines ist Apache Iceberg eine weitere aufkommende Option, die in diesen Tagen viel Aufmerksamkeit erregt. Tabular, ein Unternehmen, das von den Iceberg-Gründern ins Leben gerufen wurde, arbeitet daran, die gleichen Vorteile der Low-Code-Entwicklung und Automatisierung zu bieten", so Henschen.
Iceberg erhielt diese Woche eine wichtige Unterstützung, da Google Cloud dieses Open-Source-Tabellenformat als Teil der Vorschau auf sein neues kombiniertes Data-Lake- und Warehouse-Produkt namens BigLake einführte.
Databricks behauptet, dass DLT bereits von 400 Unternehmen weltweit verwendet wird, darunter ADP, Shell, H&R Block, Bread Finance, Jumbo und JLL.