ETL

pipeline de données

streaming pipeline ETL

Qu'est-ce qu'un pipeline de données?

Un pipeline de données est un ensemble d'étapes de traitement qui déplacent des données d'un système source à un système de destination. Les étapes du pipeline de données sont séquentielles car la sortie d'une étape est l'entrée des étapes suivantes. Le traitement des données au sein de chaque étape peut être effectué en parallèle afin de réduire le temps de traitement. La première étape du pipeline de données est généralement l'ingestion. L'étape finale est une insertion ou un chargement dans une base de données analytique.

Les pipelines de données contrôlent le flux de données en tant que processus bien défini qui soutient la gouvernance données. Ils créent également des opportunités de réutilisation lors de la construction de futurs pipelines. Les composants réutilisables peuvent être affinés au fil du temps, ce qui permet d'accélérer le déploiement et d'améliorer la fiabilité. Les pipelines de données permettent d'instrumenter l'ensemble du flux de données et de le contrôler de manière centralisée afin de réduire les frais généraux de gestion. L'automatisation du flux de données réduit également la charge de travail.

pipeline de données Exemple

Les étapes du pipeline de données varieront en fonction du type de données et des outils utilisés. Une séquence représentative des étapes d'identification des sources appropriées et des étapes du processus du pipeline de données est énumérée ci-dessous :

  • Identification des données - Les catalogues de données permettent d'identifier les sources de données potentielles pour l'analyse requise. En général, le pipeline est utilisé pour alimenter un entrepôt de données spécifique, tel qu'une plateforme de données client pour laquelle les sources de données sont bien connues. Les catalogues de données contiennent également des métadonnées sur la qualité et la fiabilité des données, qui peuvent être utilisées comme critères de sélection.
  • Profilage - Le profilage permet de comprendre les formats de données et de générer des scripts appropriés pour l'ingestion de données. Les données brutes doivent parfois être exportées dans un format délimité par des virgules, car l'accès direct est difficile.
  • ingestion de données - Les sources de données peuvent inclure des systèmes opérationnels, des clics sur le web, des messages sur les réseaux sociaux et des fichiers journaux. La technologie d'intégration des données peut fournir des connecteurs prédéfinis, des API par lots et streaming . Les fichiers semi-structurés peuvent nécessiter des formats d'enregistrement JSON ou XML spéciaux. L'ingestion peut se faire par lots ou par micro-lots, les enregistrements étant créés en flux.
  • Normalisation - Les doublons peuvent être filtrés et les lacunes comblées par des valeurs par défaut ou calculées. Les données peuvent être triées dans l'ordre de la clé primaire, qui devient ensuite la clé naturelle d'une table de base de données à colonnes. Les valeurs aberrantes et les valeurs nulles peuvent être traitées au cours de cette étape.
  • Formatage - Les données doivent être rendues cohérentes à l'aide d'un format uniforme. Les problèmes de format comprennent la façon dont les États américains sont écrits, épelés ou sous la forme d'une paire de lettres.
  • Fusion - Plusieurs fichiers peuvent être nécessaires pour construire un seul enregistrement. Tout conflit doit être géré au cours de l'étape de fusion et de rapprochement des données.
  • Chargement - Le dépôt analytique ou la base de données est la cible habituelle de cette dernière étape du pipeline de données . Des chargeurs parallèles peuvent être utilisés pour charger les données sous forme de flux multiples. Le fichier d'entrée doit être divisé avant un chargement parallèle afin d'éviter que le fichier unique ne devienne un goulot d'étranglement pour les performances. Un nombre suffisant de cœurs de processeur doit être alloué au chargement afin de maximiser le débit et de réduire le temps total écoulé pour l'opération de chargement.

Les éléments essentiels d'un pipeline de données robuste

Voici quelques caractéristiques souhaitables de la plate-forme technologique utilisée par le pipeline de données :

    1. déploiement hybride-cloud sur site et dans le nuage.
    2. Travaille avec les outils du CDC pour se synchroniser avec les sources de données.
    3. supportplusieurs fournisseurs de services en nuage.
    4. Support des formats de fichiers big data existants tels que Hadoop.
    5. La technologie d'intégration des données comprend des connecteurs vers les sources de données les plus courantes.
    6. Outils de surveillance permettant de visualiser et d'exécuter les étapes du pipeline de données .
    7. Traitement parallèle à chaque étape du pipeline.
    8. Technologie de profilage des données pour construire plus rapidement des workflows de big data.
    9. Des capacités ETL et ELT pour que les données puissent être manipulées à l'intérieur et à l'extérieur de l'entrepôt de données cible.
    10. Fonctions de transformation des données.
    11. Génération de la valeur par défaut.
    12. Gestion des exceptions en cas d'échec d'un processus.
    13. Vérification de l'intégrité des données pour valider l'exhaustivité à la fin de chaque étape.
    14. Outils graphiques pour construire des pipelines.
    15. Facilité d'entretien.
    16. Chiffrement des données au repos et en vol.
    17. Masquage des données pour la conformité.

Avantages de l'utilisation de pipelines de données

L'utilisation d'un pipeline de données présente notamment les avantages suivants :

  • Les pipelines favorisent la réutilisation des composants et le raffinement progressif.
  • Permet d'instrumenter, de surveiller et de gérer le processus de bout en bout. Les étapes qui échouent peuvent alors faire l'objet d'alertes, de mesures d'atténuation et de nouvelles tentatives.
  • La réutilisation accélère le développement des pipelines et la durée des tests.
  • L'utilisation des sources de données peut être contrôlée de manière à ce que les données inutilisées puissent être retirées.
  • L'utilisation des données peut être cataloguée, de même que les consommateurs.
  • Les futurs projets d'intégration de données peuvent évaluer les pipelines existants en vue d'établir des connexions par bus ou par hub.
  • Les pipelines de données favorisent la qualité et la gouvernance données.
  • Des pipelines de données robustes pour des décisionsdécisions éclairées.

pipeline de données FAQs

Vous trouverez ci-dessous les réponses aux questions les plus fréquentes concernant le pipeline de données et l'architecture du pipeline de données .

Quelle est la différence entre l'ETL et le pipeline de données?

"L'ETL est un processus qui implique l'extraction, la transformation et le chargement d'informations. Plutôt que d'être différent des pipelines de données, le processus ETL est simplement un moyen pour un pipeline de données d'acheminer les données de la source à la destination finale.

Quelles sont les trois principales étapes d'un pipeline de données?

Les principales étapes d'un pipeline de données sont la recherche, le traitement et le chargement. Il s'agit essentiellement de trouver la source d'information, de traiter cette information pour l'aligner sur la façon dont vous stockez vos données, et de transférer cette information vers sa destination.
la manière dont vous stockez vos données, et de transférer ces informations vers leur destination.

À quoi ressemble l'avenir des pipelines de données ?

Les innovations peuvent orienter les pipelines de données dans diverses directions. Actuellement, l'avenir anticipé comprendra une plus grande intégration de l'intelligence artificielle (IA), la décentralisation du stockage des données pour faciliter l'accessibilité et l'évolutivité, et l'introduction de modèles informatiques sans serveur.
données pour faciliter l'accessibilité et l'évolutivité rapide, et l'introduction de modèles informatiques sans serveur.

Pipelines de données dans Actian

La plateforme de données Actian dispose d'une technologie d'intégration de données sophistiquée permettant de créer des pipelines de données. Les connecteurs inclus peuvent accéder à des centaines de sources de données. Un studio de conception graphique vous permet de mettre en place des pipelines de données pour connecter, profiler, extraire, transformer et charger (processus ETL) les données. La plateforme de données Actian utilise une base de données en colonnes pour fournir des réponses plus rapidement sans avoir à se préoccuper de la précréation et de la maintenance des index pour une vitesse de requête optimale.

Actian est compatible avec les clusters et fonctionne sur site et sur plusieurs plateformes stockage en nuage public, notamment Google Cloud, Azure et AWS. Contactez-nous dès aujourd'hui pour en savoir plus sur la façon dont nous pouvons répondre à vos besoins en matière de pipeline de données .

Principaux enseignements

pipeline de données