Operationalisierung Ihres Daten-Lake
Actian Germany GmbH
Juli 15, 2020

Haben Sie schon einmal versucht, Ihre Fakten- und Dimensionstabellen miteinander zu verbinden, um operative Analysen zu erstellen? Wenn Sie umfangreiche Datenanalysen zu Themen wie Kundenabwanderung durchführen möchten, werden Sie dies wahrscheinlich tun müssen. Das Problem ist, dass diese Tabellen sehr groß sind, und wenn Sie sie zusammenführen, ist die resultierende materialisierte Datentabelle riesig (d. h. exponentiell größer als die Quelltabellen) und wird wahrscheinlich eine Zeitüberschreitung aufweisen, bevor sie überhaupt fertiggestellt ist. Wenn Sie die Daten erfolgreich vorverknüpfen können, sind die resultierenden Daten wahrscheinlich veraltet (sorry). Das liegt daran, dass sich die Quelldaten ständig ändern und die resultierenden Daten so groß sind, dass die Abfragen, die Sie versuchen, darauf auszuführen, auch nicht sehr gut funktionieren werden. Es muss einen besseren Weg geben!
Vektordatenbanken im Vergleich zu herkömmlichen Datenbanken - spaltenorientierte Ausrichtung
Vector for Hadoop wurde entwickelt, um dieses Problem zu lösen, indem es Ihnen ermöglicht, den Zwischenschritt des Vor-Joins von Daten in einer materialisierten Datentabelle zu umgehen und stattdessen High-Performance "on-demand" durchzuführen. Die Vector-Datenbank beginnt mit der Neuausrichtung Ihrer Daten in Vektoren, in denen SIMD single instruction multiple data) durchgeführt werden können. Im Wesentlichen richtet Vector Ihre Daten neu aus und konzentriert sich auf die Beziehungen zwischen Attributen (über mehrere Datensätze hinweg), anstatt sich auf die Attribute zu konzentrieren, die mit einer einzelnen Aufzeichnung verbunden sind. Dies ist aus mehreren Gründen wichtig.
Die meisten geschäftlichen Fragen, die Sie mit Hilfe der Analytik zu lösen versuchen, beziehen sich auf aggregierte Daten (durchschnittliche Transaktionsgröße, Anzahl der Verkäufe in einem Zeitraum usw.). Sie versuchen, einen Prozess ganzheitlich zu verstehen, anstatt einzelne Transaktionen nachzuvollziehen. Dieser Geschäftszweck ist wichtig, denn er ist die Grundlage dafür, warum Sie Analysen mit einem Data Warehouse und nicht mit Ihren transaktionalen Systemen durchführen sollten. Transaktionssysteme sind für die Verarbeitung einzelner Transaktionen optimiert (daher der Name). Data Warehouses sind für die Analyse von Datenstapeln optimiert. Beide Systeme sind in der Lage, die Aufgaben des jeweils anderen zu erfüllen, aber wenn Sie operative Analysen durchführen möchten, sollten Sie ein Data Warehouse verwenden, das idealerweise spaltenorientiert ist.
Leistung entsteht durch Spezialisierung
Datenbanken und Analysesysteme führen lediglich eine Reihe von mathematischen Operationen mit Ihren Daten durch - sie vergleichen Zeichenketten, ganze Zahlen usw. Für unterschiedliche Datentypen gibt es unterschiedliche Operationen, die mit ihnen durchgeführt werden können. Für die verschiedenen Datentypen können unterschiedliche Operationen durchgeführt werden. So können Sie z. B. Zahlen addieren, subtrahieren, größer als, kleiner als, min- und max-Operationen durchführen, aber für Zeichenketten können Sie eigentlich nur Zeichenvergleiche durchführen (gleich, enthält, beginnt mit usw.). Computer sind darauf ausgelegt, mathematische Operationen mit Zahlen durchzuführen, so dass diese Art von Transaktionen schneller abläuft.
Das Problem bei herkömmlichen zeilenbasierten Datenbanken ist, dass die Attribute, die mit einer Aufzeichnung von Daten verbunden sind, wahrscheinlich gemischte Datentypen haben. Um diese Daten zu analysieren, muss das System im Wesentlichen auf den "kleinsten gemeinsamen Nenner" zurückgreifen, der in den meisten Fällen aus String-Vergleichen besteht. Durch die Neuausrichtung der Daten in Spalten ermöglicht Actian Vector die Durchführung von (schnelleren) numerischen Operationen, wenn die Daten dies unterstützen, wodurch die Gesamtleistung der Anfrage beschleunigt wird.
Sie müssen nicht auf die Aktualisierung Ihrer Daten warten
Der herkömmliche Ansatz der Vorverknüpfung von Daten, um Analysen zu ermöglichen, funktioniert gut, wenn Sie mit historischen Daten arbeiten, die im Wesentlichen statisch sind. Wenn es ein paar Stunden dauert, die Daten zusammenzuführen, ist das kein Problem. Problematisch wird es, wenn sich die Quelldaten ständig ändern und die Analyseergebnisse, die Sie zu entwickeln versuchen, für die Entscheidungsfindung in Echtzeit verwendet werden. Immer mehr Unternehmen wollen ihre Hadoop-Datenseen operationalisieren und die darin enthaltenen Daten für Betriebs-Dashboards und Funktionen nutzen, die wenig Toleranz gegenüber Datenlatenz aufweisen. Ein großer Nutzen der Actian Vector-Lösung besteht darin, dass die Notwendigkeit der Voraggregation und Vorverarbeitung von Daten in den materialisierten Datentabellen umgangen wird und stattdessen On-Demand-Joins der Quelldatentabellen ausgeführt werden. Das ist genau das, was die operative Analytik erfordert.
Um mehr über Actian Vector für Hadoop zu erfahren, besuchen Sie https://www.actian.com/lp/Actianvector-sql-accelerator-for-hadoop/.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.