Datenmanagement

Zurück in die Zukunft für Flat Files - Teil 3

Actian Germany GmbH

25. November 2019

Flachfeilen auf einem Hügel

Warum eingebettet Software-Anwendungsentwickler flache Dateien auslagern sollten, bevor sie sie mit Dump bearbeiten müssen

Vor ein paar Wochen habe ich einen ersten Blog über Flat Files geschrieben und warum eingebettet Softwareentwickler sie so gerne verwenden. Im nächsten Blog ging es dann darum, warum eingebettet Entwickler nur ungern Datenbanken verwenden. In diesem dritten Teil möchte ich erörtern, warum sie die Abkehr von Flat Files in Erwägung ziehen sollten - schließlich sollte hier das alte Sprichwort gelten: "Wenn es nicht kaputt ist, sollte man es nicht reparieren", bevor wir diskutieren, warum eine Option besser ist als eine andere.

Leiden Sie unter dem "Who Moved My Cheese"-Syndrom?

In den meisten Fällen vollzieht sich der Wandel nicht in einer Weise, die wir sofort erkennen und auf die wir uns gezwungen sehen zu reagieren. Dies ist sicherlich der Fall bei der Edge Intelligence und den Faktoren, die sie antreiben.

Einzeln betrachtet, machen Veränderungen wie der Zuwachs an Funktionen beim Wechsel von 32-Bit- zu 64-Bit-Prozessoren oder die Zunahme der Geschwindigkeit und Größe von DRAM, die Möglichkeit der Nutzung anspruchsvollerer Tools und Betriebsumgebungen durch eine größere Gemeinschaft von Entwicklern und Datenwissenschaftlern sowie die Fähigkeit, komplexere Algorithmen zur Implementierung von Maschinelles Lernen zu nutzen, den Wechsel von Flat Files zu einem anderen Datenmanagement nicht zwingend erforderlich.

Der Antrieb für den Wandel ergibt sich jedoch aus den externen Anforderungen, die durch das Zusammentreffen dieser Veränderungen erfüllt werden könnten, die eine Vielzahl neuer Möglichkeiten für die Unternehmen eröffnen, die Entscheidungsfindung am Ort des Geschehens - am Rande des Geschehens - zu automatisieren und zu verbessern.

Was hat also das "Who Moved My Cheese"-Syndrom mit all diesen neuen Möglichkeiten zu tun, die Entwickler, die Flat Files verwenden, zum Umstieg zwingen? Ganz einfach: Flat Files können immer noch ihren Zweck erfüllen - nur nicht mehr so gut - und das ist es, was die Möglichkeit schafft, den Wechsel zu bekämpfen.

Im Allgemeinen, wenn diejenigen mit echtem Fachwissen eine bewährte Methodik verwenden, die immer noch in der Lage ist, eine neue Anforderung irgendwie suboptimal kennenlernen , liegt es in der menschlichen Natur, die weitere Verwendung dieser suboptimalen Methodik rechtfertigen und erzwingen zu wollen. Schauen wir uns an, warum flache Dateien nicht optimal für den Umgang mit diesem Zusammenfluss neuer Rechenressourcen und dem Wunsch, sie für die kommende Verschmelzung des industriellen Internets der Dinge (IIoT) und der künstlichen Intelligenz (KI) zu nutzen, sind.

Für dich mag es stinkender Käse sein, aber es ist mein Lieblingsparfüm!

Flache Dateien sind einfach zu verwenden, zuverlässig und kosten nichts, da sie mit dem zugrunde liegenden Betriebssystem gebündelt werden, daher ist es kein Wunder, dass sie so weit verbreitet sind. Der Übergang von im Silo, niedriger Datenrate und einfacher Verarbeitung zum hypervernetzten IIoT mit KI am Rande bedeutet jedoch, dass flache Dateien den Schnuppertest für den Einsatz in der Zukunft aus den folgenden drei Gründen nicht bestehen werden:

  1. Die steigende Nachfrage nach Edge Intelligence und insbesondere nach IIoT wird den Bedarf an verteiltem Datenmanagement und nicht nur an einfacher lokaler Datenspeicherung und -abfrage erhöhen
    Bei Dateisystemen geht es in erster Linie um die Datenspeicherung - die Grundvoraussetzung für Datenmanagement , aber kein umfassendes Datenmanagement an sich. Und obwohl moderne Dateisysteme oft Replikation, Defragmentierung, Verschlüsselung und andere wichtige moderne Datenmanagement enthalten, ersetzen sie keine Content-Management-Systeme, geschweige denn Records-Management- oder Datenbanksysteme, die fortschrittlichere Funktionen wie integrierte Indizierung, Filterung, ausgefeilte Anfrage, Client-Server-, Peer-to-Peer- und andere Schlüsselfunktionen umfassen, die für Datenmanagement in IoT benötigt werden.
  2. Moderne Edge-Intelligenz benötigt Unterstützung für Inline-Analysen auf der Grundlage von mehr als nur den lokal erfassten Datenströmen
    Die Edge-Datenverarbeitung und -Analyse beschränkte sich bisher weitgehend auf die einfache Datenverarbeitung eines einzelnen Datenstroms und Datentyps, der als Zeitreihendatensatz mit zeitlicher Filterung zur Verbesserung des Signal-Rausch-Verhältnisses (SNR) verarbeitet wurde, oder um Daten auszusondern, die sich nicht von einem unauffälligen Schwellenwert entfernt haben. In Zukunft wird es multiple data und Datentypen mit Grundlinienmustern geben, die mit Algorithmen Maschinelles Lernen referenziert, korreliert und angewendet werden. Diese ausgefeilteren Ansätze können Daten von benachbarten Geräten, vorgelagerte Daten von so weit entfernten Systemen wie ERP-Systemen im Rechenzentrum erfordern. Integrierte Funktionen für die Verknüpfung mehrerer Tabellen, die Fähigkeit, Streaming verschiedener Datentypen zu verarbeiten, Veröffentlichung und Abonnement für Peer-to-Peer und Client-Server. Diese Anforderungen sind weitaus anspruchsvoller und können nicht einfach von Grund auf neu erstellt werden, wie es in der Vergangenheit mit einfachen Indizierungs-, Sortierungs- und anderen typischen Flat-File-DIY-Add-ons möglich war. Mit einem modernen Datenmanagement sind all diese Funktionen hypervernetzt, und die Interoperabilität mit Streaming wie Kafka oder Spark ist eine Selbstverständlichkeit.
  3. Der Lebenszyklus des Maschinelles Lernen (ML), Reporting- und Visualisierungstools benötigen Plug-and-Play-Retrieval auf der Grundlage von Industriestandards, die über diejenigen für Dateisysteme hinausgehen
    Es geht nicht nur darum, das Rad neu zu erfinden, wenn es um lokale Funktionen für Inline-Analysen zur Unterstützung von ML geht, sondern auch um die Tatsache, dass ML einen Lebenszyklus hat, der das training Algorithmen mit Datensätzen aus dem Randbereich umfasst. Nach dem training werden die Algorithmen dann unüberwacht am Rand eingesetzt, um ML-Inferenz auf neuen Daten durchzuführen. Reporting und Visualisierung sind entscheidend für die Analyse, wie gut die ML funktioniert und ob Sie die erwarteten Geschäftsergebnisse erhalten. Auch hier verfügen moderne Datenmanagement über integrierte Funktionen, die bei diesen Tools und bei der Erreichung dieser Ziele helfen.

Zugegeben, in allen Fällen werden immer noch Dateisysteme benötigt. Die meisten Datenbanken, Historiker oder andere selbst entwickelte Datenmanagement nutzen immer Dateisysteme zur Datenspeicherung. Außerdem kann man mit genügend Aufwand und Schweiß das Rad mit zusätzlicher Logik immer wieder neu erfinden, um jede Funktionalität zu unterstützen, die in einem Standardprodukt enthalten ist. Die Probleme bei einem Flat-File-Ansatz liegen in den Opportunitätskosten, der geringeren Innovationsgeschwindigkeit und der mangelnden Zweckmäßigkeit, die dadurch entsteht, dass man ein viel größeres, viel ausgefeilteres Rad bauen muss. Im nächsten Abschnitt werden wir genau untersuchen, was ein modernes Datenmanagement von Haus aus braucht.

Actian ist der Branchenführer bei operativen Data-Warehouse- und Datenmanagement für moderne Unternehmen. Actian bietet ein komplettes Set an vernetzten Lösungen, die Sie bei der verwalten Daten On-Premises, in der Cloud und am Rande des Internets mit mobilen Geräten und IoT unterstützen. Actian kann Ihnen dabei helfen, die technische Grundlage zu schaffen, die Sie für eine echte geschäftliche Agilität benötigen. Um mehr zu erfahren, besuchen Sie www.actian.com.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.