Google Cloud launcht Big Lake – eine neue Speicher-Engine
Big Lake basiert auf dem beliebten BigQuery-Data-Warehouse. Damit sollen Hindernisse beseitigt werden, die Kund:innen daran hindern, den vollen Wert ihrer ständig wachsenden Daten zu nutzen, heißt es von Google-Seite. Big Lake soll es Unternehmen ermöglichen, ihre Data Warehouses und Data Lakes zu vereinheitlichen, ohne sich um das zugrunde liegende Speicherformat oder System kümmern zu müssen, erklärte Sudhir Hasbe, Senior Director bei Google Cloud, gegenüber US-Medien wie der Newsseite Protocol. „Der größte Vorteil ist, dass Sie Ihre Daten nicht in zwei verschiedenen Umgebungen duplizieren und Datensilos erstellen müssen“, sagte Hasbe in einem Pressebriefing vor dem Google Data Cloud Summit am Mittwoch, auf dem Big Lake angekündigt wurde.
BigQuery ist die Basis
Ein Data Lakehouse ist eine offene Datenmanagement-Architektur, die Data-Warehouse-ähnliche Management- und Optimierungsfunktionen für Data Lakes kombiniert, die in der Regel einen kostengünstigeren Speicher bieten. BigQuery ist ein von Google Cloud verwaltetes, serverloses Multi-Cloud-Data-Warehouse, mit dem Kund:innen Analysen über riesige Datenmengen in nahezu Echtzeit durchführen können. Laut Google Cloud verarbeitet es im Durchschnitt mehr als 110 Terabyte an Daten pro Sekunde.
„Wir haben Zehntausende Kund:innen, die es nutzen, und wir haben viel in die Governance, die Sicherheit und alle Kernfunktionen investiert. Wir nehmen also diese Innovation von BigQuery und erweitern sie jetzt auf alle Daten, die in verschiedenen Formaten sowie in Lake-Umgebungen liegen – egal, ob sie auf Google Cloud mit Google Cloud Storage, auf AWS oder auf [Microsoft] Azure liegen“, sagte Hasbe.
Big Lake wird im Zentrum der Datenplattform-Strategie von Google Cloud stehen, und der Cloud-Anbieter werde sicherstellen, dass alle seine Tools und Funktionen damit integriert werden, sagte Hasbe. „Alle unsere maschinellen Lern- und KI-Fähigkeiten werden auch auf Big Lake funktionieren, ebenso wie alle unsere Analyse-Engines, sei es BigQuery, Spark oder Dataflow.“
Big Lake soll alle Open-Source-Dateiformate unterstützen
Die Datenmengen in Unternehmen wachsen von Terabytes auf Petabytes, und die Arten von Daten – von strukturierten, halbstrukturierten und unstrukturierten bis hin zu IoT-Daten, die von vernetzten Geräten wie Sensoren gesammelt werden – nehmen ebenfalls zu. Diese Daten werden in der Regel in verschiedenen Systemen mit unterschiedlichen Funktionen gespeichert, sei es in Data Warehouses für strukturierte und halbstrukturierte Daten oder in Data Lakes für andere Datentypen, wodurch sogenannte Datensilos entstehen, die den Zugriff einschränken sowie die Kosten und Risiken erhöhen können, insbesondere wenn die Daten verschoben werden müssen.
Big Lake soll alle Open-Source-Dateiformate und -Standards unterstützen, darunter Apache Parquet und ORC und neue Formate wie Iceberg, sowie Open-Source-Verarbeitungsmaschinen wie Apache Spark. „Wenn man über grenzenlose Daten nachdenkt, ist es an der Zeit, dass wir die künstliche Trennung zwischen Managed Warehouses und Data Lakes aufheben“, sagte Gerrit Kazmaier, General Manager für Datenbanken, Data Analytics und Looker bei Google Cloud. Google tue dies auf „einzigartige Weise“.
Mit datenbasierten Entscheidungen auf Erfolgskurs gehen – lerne mit unserem Deep Dive, wie du die digitale Transformation packst und dein Unternehmen zur Data-Driven-Company machst!