Data Analytics Hub - Besser als ein Daten-Lake oder ein Analytics Hub?
Actian Germany GmbH
Februar 25, 2021

Und warum ist es besser als ein Daten-Lake oder ein Analytics Hub?
In der ersten Folge dieser Blogserie - DataLakes, Data Warehouses und Data Hubs: Do We Need Another Choice? kennenlernen ich, warum eine einfache Migration dieser On-Prem-Datenintegrations-, -management- und -analyseplattformen in die Cloud den Anforderungen moderner Datenanalyse nicht gerecht wird. Beim Vergleich dieser drei Plattformen wird deutlich, dass sie zwar alle bestimmte kritische Anforderungen kennenlernen , aber keine von ihnen die Bedürfnisse der geschäftlichen Endnutzer ohne signifikante Unterstützung durch die IT-Abteilung kennenlernen . Was wir brauchen, ist eine Plattform, die die optimalen betrieblichen und analytischen Elemente dieser Plattformen mit Merkmalen und Funktionen kombiniert, die direkt auf die betrieblichen Echtzeit- und Selbstbedienungsbedürfnisse der Fachanwender (und nicht der IT) eingehen.
Da die derzeitige Implementierung von Data Hubs, Data Lakes und Data Warehouses die kombinatorischen und analytischen Anforderungen von Anwendern in der realen Welt nicht effektiv einbezieht oder identifiziert, könnte man meinen, dass ein einfacher und beschreibender Begriff wie "Analytik-Hub" den Fokus in die richtige Richtung lenken würde. Leider ist dies einer dieser Gartenwege, die nur zu Enttäuschung und Gewissensbissen führen.
Warum nicht einfach Analytics Hub nennen?
Einfach ausgedrückt, wird der Begriff bereits auf wenig hilfreiche Weise verwendet. Einige Analyse-Hubs konzentrieren sich auf die Konsolidierung kleiner, disparater Datensätze (z. B. in Excel-Tabellen und anderen Quellen), die ein Data-Scientist auswerten möchte. Andere Analyse-Hubs können auf unterschiedliche Datenquellen zugreifen und diese analysieren, allerdings nur innerhalb der Grenzen des jeweiligen Tools und nur für den unmittelbaren Gebrauch. Nur wenige dieser Angebote sind in der Lage, Multi-Terabyte-Abfragen im Sekundentakt zu verarbeiten und komplexe advanced analytics als operative Workloads durchzuführen.
In der Tat funktionieren diese analytischen Hubs ähnlich wie Schalter und nicht wie eigentliche Hubs, wie es bei der miscategorized data hub der Fall ist. Es gibt keine Persistenz der Daten am Vereinigungspunkt und sie sind von einem externen Data Warehouse oder Daten-Lake abhängig, um Eingabedaten zu speichern und bereitzustellen. Es gibt keinen Aufwand für die Kuratierung von Daten aus verschiedenen Projekten, Nutzern und langfristiger Nutzung. Die einzige zentrale Eigenschaft dieser Analytics Hubs ist die Tatsache, dass die beabsichtigten Nutzer Business-Analysten, Business Data Scientists und ähnliche Power-User sind. Folglich konzentrieren sich Analytics Hubs auf einfache Dropdown-Menüs, vermeiden Kodierung für den Zugriff auf Daten und ermöglichen Self-Service, insbesondere für Pick-up-Dateien, die ohnehin weitgehend unter der Kontrolle des Nutzer stehen.
Um umfassende Real-Time-Insights aus der Analyse zu erhalten, benötigen die Nutzer ein einziges konsolidiertes Bild aller relevanten Daten. Diese Daten müssen dann für die Analyse durch viele verschiedene Interessengruppen mit vielen verschiedenen Tools aufbereitet werden. Der Punkt der Datenvereinheitlichung muss ein Gleichgewicht zwischen unterschiedlichen Daten UND unterschiedlichen Analysetools herstellen. Analysezentren können in der Regel nicht mehr als ein paar verschiedene Inputs und Outputs gleichzeitig verarbeiten, ganz zu schweigen von der Datenkuratierung.
Nennen Sie es stattdessen ein Data Analytics Hub
Welche Art von Plattform würde dies leisten? Nennen wir sie ein Data Analytics Hub.
Das mag wie eine offensichtliche Verfeinerung erscheinen, aber es stellt sich heraus, dass das Offensichtliche nicht immer so offensichtlich ist. Begriffe wie "Datendrehscheibe", "Daten-Lake" und "Datenlager" haben alle eine Suchhäufigkeit von zehn- bis hunderttausend pro Monat. "Data Analytics Hub" hat eine geringere Suchhäufigkeit pro Monat als ich Jahre auf diesem Planeten habe. Ich habe es mir zur Aufgabe gemacht, das zu ändern. In Anbetracht der relativen Unklarheit des Begriffs halte ich es jedoch für wichtig, kennenlernen , was ein Data Analytics Hub ist, wie er sich von einem "Analytics Hub" unterscheidet und warum er für moderne Analysen besser geeignet ist als jede der oben genannten Optionen.
Ein Data Analytics Hub enthält Elemente aus allen vier oben genannten Technologien (und wenn Sie den ersten Blog dieser Serie nicht gelesen haben und die Unterschiede zwischen Data Hubs, Data Lakes und Data Warehouses nicht kennen, sollten Sie sich acht Minuten Zeit nehmen, um ihn zu lesen).
- Wie ein Data Hub bietet auch ein Data Analytics Hub Konnektivität zu unterschiedlichen Datenquellen sowohl im Batch- als auch im Streaming . Im Gegensatz zu einem Data Hub bietet ein Data Analytics Hub jedoch Persistenz in einemLager. Darüber hinaus bietet er eine Kuratierung für eine Vielzahl unterschiedlicher Datentypen, die sowohl im Batch- als auch im Streaming mit Self-Service mit geringem bis gar keinem Code über Dropdown-Menüs für Nicht-IT-Benutzer aufgenommen werden können.
- Wie ein Daten-Lake kann auch das Lager eines Data Analytics Hubs alle Datentypen verarbeiten und Industriestandards für die Datenbewegung und -analyse nutzen (a la Kafka und Spark). Im Gegensatz zum typischen Daten-Lake von heute bietet ein Data Analytics Hub jedoch auch Struktur und Unterstützung für BI- und advanced analytics für Nutzer durch die Verwendung von SQL (ähnlich wie ein Data Warehouse ). Im Wesentlichen handelt es sich um einen bidirektionalen Hub, der mehrere Inputs und Outputs unterstützt und für alle Permutationen von Eingabedaten und Ausgabewerkzeugen, die von einer Vielzahl von Nicht-IT-Benutzern verwendet werden, eine Lösung bietet.
- In der Tat bietet ein Data Analytics Hub Downstream (d.h. in Richtung des Nutzer) Unterstützung für die meisten gängigen BI-, Reporting-, Visualisierungs- und advanced analytics . Im Gegensatz zu den heutigen Data Hubs, Data Lakes und Data Warehouses bietet ein Data Analytics Hub jedoch Nutzer Self-Service , mit denen nicht-technische Anwender jede Datenquelle mit jedem Nutzer verknüpfen können - ohne dass die IT-Abteilung eingreifen muss (entweder einmalig oder tagtäglich).
Kurz gesagt, ein Data Analytics Hub kombiniert die kritischen Datenerfassungs- und Analysefunktionen dieser bekannten Lösungen, stellt aber alle diese Funktionen auf eine Weise zur Verfügung, auf die wichtige Geschäftsanwender leicht zugreifen und sie in Programme und Prozesse einbinden können. Die folgende Abbildung zeigt ein Dutzend Schlüsselfunktionen, die aus diesen vier Technologien in eine einzige integrierte Plattform integriert wurden.
Laienhaft ausgedrückt handelt es sich um einen kuratierten Datenspeicher mit Verwaltungs- und Funktionen , der als bidirektionale Drehscheibe für disparate und vielfältige Datensätze auf der einen Seite und Analysetools auf der anderen Seite fungiert, die von Geschäftsanalysten und Datenwissenschaftlern direkt genutzt werden können, um schnell und iterativ Erkenntnisse zu gewinnen.
Warum ist ein Data Analytics Hub besser als ein Daten-Lake?
Im letzten Blog habe ich am Rande darauf hingewiesen, dass es ungenau wäre, Hadoop, den führendenDaten-Lake, mit AWS S3, Microsoft Azure ADLS und Google Cloud Store (den drei wichtigsten öffentlichen Cloud ) gleichzusetzen. Ein treffenderer Vergleich wäre der zwischen dem Hadoop Distributed File System (HDFS) und diesen Cloud Repositories sowie den AWS/Azure/Google-zugänglichen Äquivalenten der Komponenten, die Hadoop für Daten- und Systemmanagement, Abfragen, ML usw. bereitstellt (einschließlich Yarn, Hive, MapReduce, Pig, Mahout, Flume und so weiter). Wenn Sie die Buchstabensuppe hinter sich gelassen haben, finden Sie mehrere verschiedene Datenbankoptionen, ein Data Warehouse, umbenannte oder eingebettet Versionen von Kafka und Spark, ein separates ETL-Tool und das in-house Analysetool eines Anbieters. Der klare Vorteil ist die Wirtschaftlichkeit der Cloud. Der Nachteil ist jedoch, dass dieser Cloud Daten-Lake eine komplexe Plattform bleibt, die nur von der IT-Abteilung und den Entwicklern navigiert und genutzt werden kann.
Verstehen Sie mich nicht falsch, dies ist keine Tirade gegen Open Source. Die Einbettung von Open Source in eine Plattform, insbesondere für Funktionen, die zum Standard geworden sind, ist absolut sinnvoll. Alle Anbieter sollten dies tun. Es geht auch nicht darum, eine Empfehlung auszusprechen, mit welchen Analysetools Ihre Plattform am besten funktioniert. Aber in der Vergangenheit ist diese Art von Plattform nur allzu oft in den Abgrund der Desillusionierung gestürzt. Sie wird für Endbenutzer wie Geschäftsanalysten und Power Nutzer , die sich auf einen bestimmten Geschäftsbereich spezialisiert haben und die data science als Werkzeug zur Erschließung ihres Geschäfts nutzen, undurchschaubar.
Mit anderen Worten: Wenn Sie von der reinen Wissenschaft der data science abgekommen sind oder wenn Sie an einem Punkt angelangt sind, an dem Sie herkömmliche BI-Workloads, Berichts- und Visualisierungstools für Einblicke in operative Workloads nutzen möchten, ist ein Daten-Lake die falsche Plattform. Ihre Endanwender sind Business-Analysten, Power-User und Data Scientists, die Prozesse überwachen und optimieren müssen, die bereits implementiert sind und weiterlaufen, die KI/ML nutzen, die sie oder ihre Kollegen entwickelt haben, und die in der Lage sein müssen, sowohl mit den Daten als auch mit den Analysen in relativer Echtzeit zu interagieren (d. h. nicht dann, wenn es für die IT bequem ist, zu reagieren).
Im nächsten Teil dieser Blogserie werde ich näher auf die Anwendungsfälle eingehen, die für ein Data Analytics Hub am sinnvollsten sind. Oh, und ich werde alle Bedenken ausräumen, die Sie haben könnten, dass ich lediglich eine Vision eines fabelhaften Hubs heraufbeschwöre, der in einer fernen Zukunft erscheinen wird. Ich habe mir nicht einfach einen Namen für etwas ausgedacht, das es noch nicht gibt. Wie Sie sehen werden, gibt es jetzt schon ein Data Analytics Hub.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.