Big Data

Der Begriff Big Data beschreibt Datensätze, die zu groß oder zu komplex sind, um mit herkömmlichen Datenverarbeitungsmethoden verarbeitet werden zu können. Er wird auch verwendet, um Datensätze zu beschreiben, die in ihrer Gesamtheit verarbeitet werden müssen, um geschäftliche Erkenntnis über die in den Daten enthaltenen Informationen zu gewinnen, da die Verarbeitung von Teilmengen der Daten zu falschen Schlussfolgerungen führen könnte.
Drei Schlüsselattribute können sie charakterisieren - Volumen, Geschwindigkeit und Vielfalt, die im Folgenden erläutert werden:
- Das Volumen kann je nach Anwendung und Unternehmen variieren. Viele Unternehmen betrachten jeden Datensatz , der größer als zehn Terabyte ist, als Big Data, während andere den Begriff zur Beschreibung von Datensätzen im Petabyte-Bereich verwenden. Webprotokolle, Finanzsysteme, social media Feeds und IoT können riesige Datenmengen generieren, die immer häufiger vorkommen.
- Die Geschwindigkeit der Datenerstellung kann in Anwendungsfällen wie Betrugserkennung oder IoT in der Fertigung eine in-memory in Echtzeit erfordern. Edge-Verarbeitung und intelligente Geräte können dazu beitragen, die Datengeschwindigkeit zu drosseln, indem sie ein großes Datenvolumen vorverarbeiten, bevor es die zentralen Serverressourcen überlastet.
- Vielfalt bezieht sich auf Datentypen. Sie ist nicht nur auf strukturierte Daten beschränkt. Die Datensätze umfassen auch unstrukturierte und halbstrukturierte Datentypen, wie JSON, Audio, Text und Video.
Speicherung Big Data
Frühe Datenspeichersysteme, die zur Entscheidungsunterstützung eingesetzt wurden, basierten auf der Data-Warehousing-Technologie für die Speicherung und den Abruf strukturierter Daten. Dies wurde zu einem einschränkenden Faktor, als die Unternehmen begannen, den Wert von halbstrukturierten und unstrukturierten Daten zu erkennen. Open-Source- und skalierbar, strukturierte Dateisysteme wurden entwickelt, um Tausende von Dateien wirtschaftlich zu speichern, auf die mit Hilfe von Clusterservern zugegriffen werden konnte. In den ersten Tagen verwalteten Apache-Hadoop-Software-Stacks, die auf Server-Clustern liefen, Big Data .
SQL-Zugang zu Big Data
Apache Hive bot eine SQL-API, die dateibasierte Daten für Anwendungen verfügbar machte. Spark SQL bietet eine API-Schicht, die über 50 Dateiformate, ORC und Parquet unterstützt. Moderne Cloud und Cloud , wie die Actian Data Platform, bietet ein High-Performance Data Warehouse für die Datenanalyse mit der Möglichkeit, über einen integrierten Spark Konnektor auf Hadoop-Dateiformate als externe Tabellen zuzugreifen. Durch die Unterstützung gängiger semi-strukturierter Datenformate, einschließlich JSON und Website-Protokolle, zusätzlich zu Spark SQL und Standard-SQL, erhalten Anwendungsentwickler und Datenanalysten einfachen Zugriff auf Big Data in der Cloud und vor Ort.
Verarbeitung
Verarbeitungssysteme mit Massively Parallel Processing (MPP) Funktionen , die Hunderte von Rechenknoten verwenden, ermöglichen die Analyse großer und komplexer Datensätze. Niedrige Speicherkosten und die sofortige Verfügbarkeit massiver Rechenressourcen nach Bedarf machen Cloud Computing-Dienste zu einer guten Wahl für die Verarbeitung großer Mengen. Abonnementpreise und elastische Bereitstellung machen Cloud Computing zu einer wirtschaftlichen Wahl, da Sie nur für die genutzten Ressourcen zahlen. Vor-Ort-Alternativen verwenden oft Cluster- oder GPU-basierte Systeme, die für die hochgradig parallelisierte Verarbeitung von Anfrage genutzt werden können.
Warum wird es verwendet?
Der Ansatz wurde populär, weil er eine neue Quelle empirischer Daten zur Unterstützung der unternehmerischen Entscheidungsfindung bot. Unternehmen generieren und sammeln riesige Datenmengen, die wertvolle Erkenntnisse enthalten, die erst durch die Verarbeitung und Analyse der Daten sichtbar werden. Die Technologie hat es Unternehmen ermöglicht, große Datenmengen effizient zu analysieren, um neue Erkenntnisse zu gewinnen, die es ihnen ermöglichen, wettbewerbsfähig zu sein und den Erfolg ihrer Kundeninteraktionen zu steigern. Entscheidungen auf der Grundlage tatsächlicher Verbraucherdaten zu treffen, verringert die Risiken und Kosten, die mit einer uninformierten Entscheidungsfindung verbunden sind, und macht das Unternehmen letztlich effektiver.
Big Data Anwendungsfälle
Im Folgenden finden Sie einige Beispiele für praktische Anwendungsfälle:
- Die Gesundheitsbranche nutzt sie zur Verbesserung der Patientenversorgung, indem sie Telemetriedaten von intelligenten tragbaren Geräten verwendet, um den Gesundheitszustand der Patienten zu überwachen, z. B. Blutdruck, Blutzuckerspiegel und Herzfrequenz. Bei klinischen Studien werden riesige Datenmengen gesammelt, die analysiert werden müssen, um Krankheiten verwalten und zu verhindern.
- Die Telekommunikationsbranche nutzt die von den Mobilfunkteilnehmern gesammelten Daten, um die Zuverlässigkeit der Netze und die Customer-Experience zu verbessern.
- Die Medienbranche nutzt die Daten der Nutzer , um Inhalte zu personalisieren und an die Interessen der Zuschauer anzupassen. Dies erhöht die Zufriedenheit mit dem Service und verbessert die Kundenbindung.
- Der Einzelhandel braucht seine Analysen, um Waren zu verkaufen, die für den Käufer am relevantesten sind. Durch die Verfolgung von Kunden aus dem E-Commerce und entsprechende Empfehlungen können Einzelhändler die Kundenfrequenz in ihren Geschäften erhöhen.
- Banken und Versicherungen nutzen es, um potenziell betrügerische Transaktionen zu erkennen und Geldwäsche zu verhindern.
- Regierungsorganisationen nutzen sie zur Verbesserung der Polizeiarbeit und zur Bekämpfung der Internetkriminalität. Städte nutzen Verkehrskameras, um Unfälle verwalten und den Verkehrsfluss auf den Straßen zu verbessern.
- Marketingabteilungen nutzen sie für gezielte social media und digitale Werbekampagnen, um ihren Vertriebsteams Kontakte zu vermitteln, die an dem Produkt oder der Dienstleistung des Unternehmens interessiert sein könnten.
Big Data und Actian
Die Actian Data Platform bietet u.a. folgende Vorteile:
- Hervorragende Leistung für Ihre komplexesten Workloads.
- Integrierte Datenintegration zum schnellen Laden und Abrufen von Daten sowie zur Transformation und Datenqualität.
- Skalieren Sie Ihr Data Warehouse in Echtzeit entsprechend Ihrem Rechen- und Speicherbedarf.
- SOC 2 Typ 2-Konformität für Ihre sensibelsten Daten.
Erfahren Sie mehr über die Actian Data Platform unter: https://www.actian.com/data-platform