ETL ist ein Akronym für Extrahieren, Transformieren und Laden. Der ETL-Prozess zielt darauf ab, Rohdaten aus den Quellsystemen zu erhalten, sie zu verfeinern und in ein Zieldatenlager zu laden, wo sie für die geschäftliche Entscheidungsfindung verwendet werden können.
Was sind ETL-Werkzeuge?
Dateningenieure und Datenexperten verwenden ETL-Tools, um ein Data Warehouse mit Daten von ausreichender Qualität zu füllen, auf die sie sich bei der Entscheidungsfindung verlassen können. ETL-Tools bieten die Möglichkeit, den ETL-Prozess zu vereinfachen und zu verwalten und ermöglichen es, die Datenbewegung in Data Warehouses durch Automatisierung zu skalieren.
ETL-Tools erleichtern die Verbindung zu Datenquellen und bieten Funktionen zum Filtern, Zusammenführen und Füllen von Datenlücken unter Verwendung einer Staging-Datenbank. Die Ausgangsdaten aus dem Staging- und Datenbereinigung werden in das Zieldatawarehouse geladen. ETL-Tools bieten eine End-to-End-Überwachung des Datentransfer- und -transformationsprozesses und stellen Funktionen für das laufende Betriebsmanagement bereit. Die meisten Tools konzentrieren sich auf den Inhalt und das Format der Daten und verwenden Dateiübertragungstechnologien von Drittanbietern, um Daten in Strömen oder Stapeln zu übertragen.
Arten von ETL-Werkzeugen
ETL-Tools können in die folgenden Kategorien eingeteilt werden, wobei viele Tools mehrere Segmente abdecken:
- Batch-ETL-Tools, die Datenumwandlungen und -übertragungen über Nacht oder in Mikro-Batches planen.
- Echtzeit-ETL-Tools, die Streaming oder Datenreplikation durch CDC (Changed Data Capture) unterstützen.
- On-Premises-ETL-Tools, die herunterladbare Designstudio-Tools zur Erleichterung der Entwicklung anbieten.
- Cloud ETL-Tools, die den Deployment über mehrere Cloud hinweg ermöglichen.
Ist SQL ein ETL-Werkzeug?
Es gibt eine Klasse von ETL, die als ELT bekannt ist und Rohdaten in die Zieldatenbank lädt, wo sie innerhalb derselben Datenbank umgewandelt werden. Die strukturierte Anfrage (SQL) kann für einige ETL-Funktionen verwendet werden, verfügt aber nicht über die Überwachungs- und Verwaltungsaspekte der großen ETL-Tools. SQL kann für die Datenumwandlung mit Hilfe eingebauter Funktionen verwendet werden. SQL selbst kann Daten filtern, zusammenführen und sortieren. Wenn die Data-Warehouse-Technologie externe Daten unterstützt, kann der Schritt des Datenladens in einigen Fällen umgangen werden. Die Verwendung externer Daten ist jedoch mit einem erheblichen Leistungsverlust verbunden.
Viele kommerzielle Datenbanken bieten verteilte Funktionen , so dass Sie z.B. mit CREATE REMOTE-TABLE-NAME AS SELECT * FROM LOCAL-TABLE-NAME entfernte Tabellen erstellen können. Daten können über entfernte Knoten mit INSERT INTO LOCAL-TABLE-NAME as SELECT * FROM REMOTE-TABLE verschoben werden.
Ist SSIS ein ETL-Werkzeug?
Microsoft SSIS (SQL Server Integration Services) ist ein ETL-Tool mit der Fähigkeit, Workflows zur Unterstützung von Datenpipelines für SQL Server Data Warehouses zu erstellen. SSIS umfasst eine grafische Nutzer , die zur Entwicklung eines ETL-Pakets verwendet wird, das prozedurale Logik und Fehlerbehandlung enthält. SSIS ist sehr stark auf die SQL Server-Plattform ausgerichtet und sollte daher nicht als allgemeines ETL-Tool betrachtet werden, das über Windows hinausgeht und mit Nicht-Microsoft-Datenbanken verwendet werden kann.
Datenmanagement im Cloud Computing
Der Hauptunterschied zwischen On-Premise-Systemen und Cloud Computing besteht darin, dass Sie die Server- und Speicherressourcen eines anderen Unternehmens über eine sichere Internetverbindung nutzen. Sie können eine Anwendungsplattform mit einer lokalen Einrichtung in Ihrem eigenen Rechenzentrum aus dem Vollen schöpfen. Sie können wählen, welches Betriebssystem Sie verwenden möchten, ob Sie Virtualisierungssoftware einsetzen wollen und ob Sie einen direkt angeschlossenen oder einen über das Netzwerk angeschlossenen Speicherplatz wünschen. Alles ist über Hochgeschwindigkeits-Gigabit-Netzwerkverbindungen verbunden.
Datenmanagement vor Ort ist einfach, da sich Ihre Daten und Server an einem einzigen Standort mit Verbindungen mit geringer Latenz befinden. Sie haben die Hardware gekauft und müssen daher nicht für die Nutzung mit einem gebührenpflichtigen Abonnement für CPU und Speicherplatz bezahlen. Der Nachteil dieses Ansatzes ist, dass Sie weitere Hardware kaufen müssen, wenn Sie die verfügbare Kapazität ausgeschöpft haben, und dass Sie in der Regel größere Systeme kaufen, als Sie benötigen, da Sie Nutzungsspitzen abfangen müssen.
Datenmanagement in Cloud hat einige deutliche Vorteile. Da es sich um eine Abrechnung als Pay-as-you-go handelt, müssen Sie keine Kapitalbudgets für die Erweiterung bereitstellen, sondern können zusätzlichen Speicher nach Bedarf kaufen. Ein weiterer großer Vorteil ist, dass Cloud zunehmend softwaredefiniert sind, so dass Sie nicht gezwungen sind, die Größe des Speichers für Spitzenlasten festzulegen, da Sie Ihren Speicherplatz nach Bedarf erweitern und verkleinern können. Wenn Sie ein Einzelhändler sind und Ihr Geschäft saisonabhängig ist, können Sie die Größe Ihres Speichers und Ihrer Rechenleistung an die saisonalen Verarbeitungszyklen anpassen.
Die Speichereigenschaften können in der Cloud sehr unterschiedlich sein. Jeder Anbieter bietet abgestuften Speicherplatz an, so dass Sie für teuren SSD-basierten Hochgeschwindigkeitsspeicher bezahlen können, oder wenn die Leistung nicht so wichtig ist, können Sie herkömmliche Festplatten verwenden, um Geld zu sparen. Die Datenbanktechnologie in der Cloud wird zunehmend serverlos, so dass Sie in den Genuss elastischer Rechen- und Speicherkapazitäten kommen, die von den Beschränkungen physischer Server und Speichergeräte losgelöst sind. Sie wählen einfach die verschiedenen Speicher- und Berechnungsklassen, die kennenlernen Anwendung benötigt.
Auch die Hochverfügbarkeit ist in der Cloud anders, denn Sie wählen ein Cloud in der Nähe des Ortes, an dem Sie Ihre Daten erzeugen und verarbeiten. Für hohe Verfügbarkeit können Sie Ihren Speicher auf mehrere Speichergeräte aufteilen, um sich vor Geräteausfällen zu schützen. Zum Schutz vor einem Ausfall des Rechenzentrums aufgrund von Katastrophen wie Feuer, Überschwemmung oder Erdbeben können Sie ein Standby-Rechenzentrum in einer anderen Region bestimmen.
Die Netzwerklatenz ist ein wichtiger Faktor, wenn Sie in der Cloud arbeiten. Die Netzwerkverbindungen zwischen Cloud sind nicht so schnell wie innerhalb eines bestimmten Rechenzentrums. Es ist ratsam, die Datenanalyse in derselben Cloud durchzuführen, in der sich Ihr Daten-Lake befindet. Cloud erheben in der Regel Ausstiegsgebühren, die sich nach dem zu verschiebenden Datenvolumen richten, was ein zusätzlicher Grund ist, die Daten dort zu verarbeiten, wo sie entstehen.
Cloud haben ihre eigenen Datenmanagement , wie Google Big Anfrage, Azure Synapse und Amazon RedShift, um überzeugende Gründe zu liefern, sich an ihre Plattform zu binden. Die meisten Unternehmen möchten jedoch kritische Technologien nicht aus einer Hand beziehen, um bei Bedarf immer das beste Angebot zu erhalten. Aus diesem Grund bieten Datenmanagement , die mehrere Cloud umfassen und vor Ort ausgeführt werden können, maximale Flexibilität. Die Actian Datenplattform bietet diese Flexibilität. Die Actian Data Platform ist so konzipiert, dass sie hohe Leistung und Skalierbarkeit für große Datenmengen, gleichzeitige Benutzer und komplexe Anfrage bietet.
Zu vermeidende Fehler beimDatenmanagement
Zu den zu vermeidenden FehlernDatenmanagement gehören:
- Vermeiden Sie Lieferanten-Lock-in , indem Sie eine Datenmanagement wählen, die Clouds umfasst und On-Premise-Optionen bietet. Wenn Sie sich beispielsweise für RedShift entscheiden, ist es schwierig, auf andere Cloud als AWS zu migrieren.
- Legen Sie Ihre Daten nicht in einer anderen Cloud ab als dort, wo Sie die Daten verarbeiten, da Sie sonst hohe Auslagerungsgebühren riskieren. Manchmal ist es kostengünstiger, große Datenmengen per Lkw zu versenden als über Internetverbindungen.
- Verwenden Sie kein Cloud Data Warehouse, das nicht mit Ihrer On-Premise-Technologie kompatibel ist, um die training niedrig zu halten und Migrationsoptionen offen zu halten. Actian bietet die gleichen Datenbank-Engines in der Cloud wie vor Ort.
- Fragmentieren Sie Ihre Daten nicht. Versuchen Sie, die Daten auf so wenigen Plattformen wie möglich zu konsolidieren. Wenn Sie Daten am Netzwerkrand für eine IoT sammeln, versuchen Sie, diese in 3 oder 4 Datenzentren zu konsolidieren, um die Fragmentierung zu kontrollieren.
- Systeme, die die Speicherung an die Datenverarbeitung koppeln, können verschwenderisch sein. Suchen Sie daher nach Datenmanagement , die eine unabhängige Skalierung von Datenverarbeitung und Speicherung ermöglichen. Actian und Snowflake nutzen entkoppelte Rechen- und Funktionen in Cloud .
Achten Sie auf eine erstklassige Infrastruktur, einschließlich der neuesten Hardware und GPUs, eine breite Anwendungsunterstützung, solide Sicherheit, fachkundigen Support und eine vernünftige, leicht verständliche Kostenstruktur.
Die Entwicklung von ETL
- In den 1970er Jahren wurden Datenbanken mit Hilfe von benutzerdefiniertem Code geladen oder von Menschen durch manuelle Dateneingabe eingegeben.
- In den 1980er Jahren importierten Batch-Loader flache Dateien in Datenbanken wie DB2, Ingres und Oracle.
- In den 1990er Jahren begannen Data Warehouses, einen formalen ETL-Prozess zu verwenden.
- In den 2000er Jahren wurde ETL stärker formalisiert, und es entstanden neuere spezielle ETL-Tools.
- In den 2010er Jahren kam das Cloud mit SaaS-Data-Warehouses auf.