ETL

Que sont les outils ETL ?

streaming pipeline ETL

ETL est l'acronyme de extract, transform and load (extraction, transformation et chargement). Le processus ETL vise à extraire les données brutes des systèmes sources, à les affiner et à les charger dans un entrepôt de données cible où elles peuvent être utilisées pour la prise de décision l'entreprise.

Que sont les outils ETL ?

Les ingénieurs et professionnels des données utilisent les outils ETL pour alimenter un entrepôt de données avec des données d'une qualité suffisante pour que l'on puisse s'y fier pour prendre prise de décision. Les outils ETL permettent de simplifier et de gérer le processus ETL, ce qui rend possible l'automatisation du mouvement des données vers les entrepôts de données.

Les outils ETL facilitent la connectivité aux sources de données et fournissent des fonctions permettant de filtrer, de fusionner et de combler les lacunes dans les données à l'aide d'une base de données de transit. Les données issues du processus de mise à disposition et de nettoyage des données sont chargées dans l'entrepôt de données cible. Les outils ETL permettent de surveiller de bout en bout le processus de transfert et de transformation des données et offrent des capacités de planification pour assurer une gestion opérationnelle continue. La plupart des outils se concentrent sur le contenu et le format des données en utilisant une technologie de transfert de fichiers tierce pour déplacer les données en flux ou en lots.

Types d'outils ETL

Les outils ETL peuvent être classés dans les catégories suivantes, bien que de nombreux outils couvrent plusieurs segments :

  • Outils ETL par lots - qui programment les transformations et les transferts de données pendant la nuit ou par micro-lots.
  • Outils ETL en temps réel - qui support streaming ou la réplication des données par le biais de CDC (Changed Data Capture).
  • Outils ETL sur site - qui fournissent des outils de conception téléchargeables pour faciliter le développement.
  • Outils ETL basés sur le cloud - qui offrent un déploiement sur plusieurs plateformes cloud.

SQL est-il un outil ETL ?

Il existe une classe d'ETL connue sous le nom d'ELT, qui charge des données brutes dans la base de données cible, où elles sont transformées au sein de la même base de données. Le langage de requête structuré(SQL) peut être utilisé pour certaines fonctions d'ETL, mais il n'offre pas les aspects de contrôle et de gestion des principaux outils d'ETL. SQL peut être utilisé pour transformer les données à l'aide de fonctions intégrées. SQL lui-même peut filtrer, fusionner et trier les données. Si la technologie de l'entrepôt de données prend en charge les données externes, l'étape de chargement des données peut être contournée dans certains cas. Cependant, l'utilisation de données externes est très pénalisante en termes de performances.

De nombreuses bases de données commerciales offrent des capacités SQL distribuées qui permettent de créer des tables distantes à l'aide de la commande CREATE REMOTE-TABLE-NAME AS SELECT * FROM LOCAL-TABLE-NAME, par exemple. Les données peuvent être déplacées entre les nœuds distants à l'aide de INSERT INTO NOM-TABLE LOCAL comme SELECT * FROM REMOTE-TABLE.

SSIS est-il un outil ETL ?

Microsoft SSIS (SQL Server Integration Services) est un outil ETL qui permet de créer des flux de travail afin de support pipelines de données pour les entrepôts de données SQL Server. SSIS comprend une interface utilisateur graphique permettant de développer un paquet ETL comprenant une logique procédurale et une gestion des erreurs. SSIS est très orienté vers la plateforme SQL Server, il ne doit donc pas être considéré comme un outil ETL général qui couvre des plateformes autres que Windows et qui peut être utilisé avec des bases de données autres que Microsoft.

gestion des données in informatique dans le cloud

La principale différence entre les systèmes sur site et l'informatique dans le cloud est que vous utilisez le serveur et les ressources de stockage de quelqu'un d'autre par le biais d'une connexion internet sécurisée. Vous pouvez construire une plateforme d'application à partir de fer brut avec une installation locale dans votre propre centre de données. Vous pouvez choisir le système d'exploitation (OS) que vous souhaitez utiliser, décider si vous voulez utiliser un logiciel de virtualisation et choisir entre un stockage directement attaché ou attaché au réseau. Tout est connecté grâce à des connexions réseau gigabit à haut débit.

La gestion des données sur site est facile car vos données et vos serveurs se trouvent à un seul endroit avec des connexions à faible latence. Vous avez acheté le matériel, vous n'avez donc pas besoin de payer pour l'utilisation avec un abonnement mesuré pour le processeur et le stockage. L'inconvénient de cette approche est que vous devez acheter du matériel supplémentaire lorsque vous avez utilisé la capacité disponible, et que vous achetez généralement des systèmes plus grands que nécessaire, car vous devez faire face aux pics d'utilisation.

La gestion des données en informatique dans le cloud présente des avantages certains. Comme vous utilisez un modèle de tarification à l’usage par abonnement, vous n'avez pas à prévoir de budget d'investissement pour l'expansion ; vous pouvez acheter du stockage supplémentaire au fur et à mesure des besoins. Un autre avantage majeur est que les systèmes en nuage sont de plus en plus définis par logiciel, de sorte que vous n'êtes pas contraint de dimensionner votre espace de stockage pour les périodes de pointe, car vous pouvez l'étendre et le réduire en fonction des besoins. Si vous êtes un détaillant et que votre activité est saisonnière, vous pouvez dimensionner votre stockage et votre informatique en fonction des cycles de traitement saisonniers.

Les propriétés de stockage peuvent être très différentes dans l'informatique dématérialisée. Chaque fournisseur propose un stockage hiérarchisé, de sorte que vous pouvez choisir de payer pour un stockage coûteux et à grande vitesse basé sur des disques SSD ou, si les performances ne sont pas aussi critiques, vous pouvez utiliser des disques durs traditionnels pour économiser de l'argent. La technologie des bases de données dans le nuage devient de plus en plus sans serveur, ce qui vous permet de profiter d'un calcul et d'un stockage élastiques qui s'affranchissent des contraintes liées aux serveurs physiques et aux périphériques de stockage. Il vous suffit de choisir les différentes classes de stockage et de calcul qui répondent aux besoins de votre application.

La haute disponibilité est également différente dans l'informatique en nuage, car vous choisissez un centre de données en nuage près de l'endroit où vous générez et traitez vos données. Pour la haute disponibilité, vous pouvez répartir votre stockage sur plusieurs dispositifs de stockage afin de vous protéger contre les défaillances des dispositifs. Pour vous protéger contre les défaillances des centres de données dues à des catastrophes telles que les incendies, les inondations ou les tremblements de terre, vous pouvez désigner un centre de données de secours situé dans une zone géographique différente.

La latence du réseau est un élément important à prendre en compte lorsque vous travaillez dans l'informatique dématérialisée. Les connexions réseau entre les centres de données en nuage ne seront pas aussi rapides qu'à l'intérieur d'un centre de données donné. Il est conseillé d'effectuer l'analyse des données dans la même région du nuage qui héberge votre lac de données. Les fournisseurs de cloud public facturent généralement des frais de sortie en fonction du volume de données que vous déplacez, ce qui constitue une raison supplémentaire de traiter les données là où elles sont créées.

Les fournisseurs de services en nuage disposent de leurs propres écosystèmes de gestion des données , tels que Google Big requête, Azure Synapse et Amazon RedShift, qui offrent des raisons convaincantes de s'enfermer dans leur plateforme. Toutefois, la plupart des entreprises ne souhaitent pas s'approvisionner auprès d'un seul fournisseur pour une technologie essentielle, afin de pouvoir toujours obtenir le meilleur rapport qualité-prix en cas de besoin. C'est pourquoi les solutions de gestion des données qui couvrent plusieurs plateformes cloud et peuvent fonctionner sur site offrent une flexibilité maximale. La plateforme de données Actian offre cette flexibilité. La plateforme de données Actian est conçue pour offrir des performances élevées et une grande évolutivité en fonction des volumes de données, des utilisateurs simultanés et de la complexité des requête .

Cloud gestion des données Les erreurs à éviter

Les erreurs à éviter dans le cadre de la gestion des données dans le nuage sont les suivantes :

  • Évitez l'enfermement propriétaire en choisissant une solution de gestion des données qui couvre les nuages et offre des options sur site. Le choix de RedShift, par exemple, rend difficile la migration vers des plateformes en nuage autres qu'AWS.
  • Ne placez pas vos données dans une région du nuage différente de celle où vous les traitez, car vous risqueriez de payer des frais de sortie élevés. Il est parfois plus rentable d'expédier des données en vrac par camion que par des connexions internet.
  • N'utilisez pas un entrepôt de données cloud incompatible avec votre technologie sur site afin de maintenir les coûts d'apprentissage à un niveau bas et les options de migration ouvertes. Actian propose les mêmes moteurs de base de données dans le nuage et sur site.
  • Ne fragmentez pas vos données. Essayez de consolider les données sur le moins de plateformes possible. Si vous collectez des données à la périphérie du réseau pour une application IoT, essayez de les consolider dans 3 ou 4 centres de données pour contrôler la fragmentation.
  • Les systèmes qui couplent le stockage à l'informatique peuvent être source de gaspillage. Il convient donc de rechercher des solutions de gestion des données qui vous permettent de faire évoluer l'informatique et le stockage de manière indépendante. Actian et Snowflake exploitent les capacités de calcul et de stockage découplées dans les plateformes en nuage.

Recherchez la meilleure infrastructure, y compris le matériel et les GPU les plus récents, une large support applications, une sécurité solide, une support spécialisée et une structure de coûts raisonnable et facile à comprendre.

L'évolution de l'ETL

  • Dans les années 1970, les bases de données étaient chargées à l'aide d'un code personnalisé ou introduites par des personnes effectuant une saisie manuelle des données.
  • Dans les années 1980, les chargeurs de lots importaient des fichiers plats dans des bases de données telles que DB2, Ingres et Oracle.
  • Dans les années 1990, les entrepôts de données ont commencé à utiliser un processus ETL formel.
  • Dans les années 2000, l'ETL est devenu plus formel et de nouveaux outils dédiés à l'ETL ont vu le jour.
  • Les années 2010 ont vu l'essor de l'informatique dans le cloud avec les entrepôts de données SaaS.