Les pipelines de données constituent un processus en plusieurs étapes qui déplace et affine les données des systèmes sources, y compris un lac de données, vers une plateforme de données cible. Les étapes se déroulent en série et chacune d'entre elles peut être parallélisée pour accélérer le mouvement des données dans le pipeline de données. Les pipelines de données automatisent le déplacement, la transformation et le nettoyage des données à partir d'une source de données, tout au long de leur parcours vers le dépôt données de destination.
Pourquoi utiliser des pipelines de données ?
Les pipelines de données offrent une visibilité et un contrôle de bout en bout sur le flux de données. Cela permet de créer des éléments d'automatisation réutilisables et d'améliorer la provenance des données. L'utilisation de processus et d'outils normalisés facilite également les efforts de gouvernance données.
Différence entre les pipelines ETL et les pipelines de données
Un pipeline de données de grande envergure peut contenir des étapes d'extraction, de transformation et de chargement (ETL). Les processus ETL aboutissent invariablement à une base de données. Il peut se terminer par une étape de raffinement intermédiaire, telle qu'un lac de données.
Avantages de l'utilisation de pipelines de données
Voici quelques-uns des avantages de l'utilisation des pipelines de données :
- Soutient une approche systématique qui peut être automatisée.
- Les composants du flux de données peuvent être réutilisés pour réduire les coûts de développement.
- Les sources de données peuvent être retracées afin d'support provenance des données.
- La visibilité de bout en bout d'un flux de données permet de cataloguer les sources et les consommateurs de données.
- cohérence processus automatisés. Les flux de travail manuels et ad hoc sont plus sujets aux erreurs.
- Les pipelines de données peuvent être imbriqués pour des cas d'utilisation complexes.
- Ils améliorent la qualité des données au fur et à mesure que les processus évoluent.
- La confiance dans les décisions augmente lorsque l'on utilise des données provenant de pipelines robustes.
Pipelines de données dans la plateforme de données Actian
La plateforme de données Actian peut construire et planifier des pipelines de données et dispose de centaines de connecteurs prédéfinis vers des sources telles que Marketo, Salesforce et ServiceNow. La plateforme plateforme de données Actian utilise une base de données vectorielle en colonnes qui est 7,9 fois plus performante que les autres solutions. La technologie d'intégration des données est intégrée pour support pipelines de données qui comprennent un concepteur graphique qui vous permet de mettre en place des pipelines de données pour connecter, profiler, transformer et charger des données. Les étapes des pipelines peuvent être planifiées et exécutées en parallèle.
Pour en savoir plus sur la plateforme de données Actian : https://www.actian.com/data-platform
pipeline de données Steps
Le pipeline de données se compose de plusieurs étapes qui comprennent généralement les fonctions suivantes :
Accès
Pour une analyse efficace, les entreprises doivent recueillir des données provenant de sources multiples dans l'ensemble de leurs activités. Les sources de données comprennent les systèmes transactionnels, les fichiers journaux, les systèmes de vente et de marketing, les ensembles de données de tiers, etc. Une fois que l'entreprise a décidé à quelles questions ses analyses doivent répondre, elle doit identifier les référentiels de données sources qui contiennent les données. La technologie d'intégration des données fournit les mécanismes permettant de se connecter à ces diverses sources de données.
Profilage des données
Chaque source de données nécessite un profilage afin de déterminer la meilleure utilité et la meilleure méthode d'accès pour l'extraction. Les organisations accèdent aux données à l'aide d'API telles qu'ODBC et d'exportations de données dans un format délimité par des virgules à partir de référentiels propriétaires. Les outils de profilage aident à déterminer les volumes de données, la cardinalité et le meilleur format de données pour chaque champ de données.
ingestion de données
Les données qui peuvent encore se trouver dans plusieurs fichiers doivent maintenant être transférées dans un dépôt commun. Les fichiers structurés et semi-structurés peuvent avoir différents formats, tels que le enregistrement, le format de document et le format XML. Il est important de rendre les formats de documents aussi uniformes que possible afin d'éviter de rendre le traitement du pipeline de données trop complexe.
nettoyage des données
Cette étape permet de combler les lacunes et les incohérences des données. Les données sont d'abord triées par date avant d'être traitées. Le filtrage des données supprime les enregistrements qui ne sont pas pertinents pour l'analyse. Les lacunes dans les données peuvent être comblées à l'aide de valeurs par défaut appropriées ou de calculs par extrapolation ou interpolation de valeurs de données adjacentes. Les valeurs hors limites et les valeurs nulles peuvent fausser les résultats de l'analyse. Ces valeurs aberrantes doivent être traitées avec soin pour garantir l'intégrité de l'analyse des données.
Formatage
Toutes les variations de données restantes, telles que les décisions sur les formats de date, doivent être normalisées pour faciliter le chargement dans la plateforme d'analyse dépôt. Parmi les défis courants en matière de format, citons les formats des États américains, dont un système épellera le nom tandis que d'autres utiliseront des abréviations. Les outils d'intégration de données fournissent généralement des fonctions permettant de modifier ces formats, ou des routines Python simples sont disponibles sur GitHub pour les ingénieurs de données.
Combinaison
Lorsque les ensembles de données sont répartis entre plusieurs fichiers, ils doivent être fusionnés et les valeurs en double doivent être réconciliées.
Chargement
Les données peuvent être auditées et chargées dans la plateforme de données cible. Les chargeurs rapides peuvent paralléliser le processus de chargement. Les données d'entrée doivent support modèle de données logique, y compris les contraintes d'intégrité référentielle, et la conception du schéma de la base de données.
Parallélisme de pipeline
La parallélisation s'effectue à l'intérieur d'une étape du pipeline, car une étape précédente doit être achevée avant qu'une nouvelle ne puisse commencer. Les données descendent le long d'un pipeline, étape par étape, jusqu'à ce qu'elles atteignent leur destination. La tâche la plus lente limite le parallélisme du pipeline car son résultat doit être fusionné avec la sortie de toutes les autres sous-tâches.