Intégration des données

Guide complet pour une préparation efficace des données

Actian Corporation

28 juillet 2021

Mots de préparation et d'analyse des données sur un écran d'ordinateur portable

Abraham Lincoln aurait très bien pu parler des étapes de préparation des données pour l'analyse lorsqu'il a dit : "Si j'avais 8 heures pour couper un arbre, j'en passerais 6 à aiguiser ma hache". Consacrer 75 % du temps alloué à la préparation peut sembler beaucoup. Mais en fait, la plupart des observateurs du secteur indiquent que les étapes de préparation des données pour l'analyse commerciale ou l'apprentissage automatique consomment 70 à 80 % du temps passé par les scientifiques des données et les analystes.

Les étapes de la préparation des données en détail

Le pipeline de préparation des données comprend les étapes suivantes :

  1. Accéder aux données.
  2. Ingérer (ou récupérer) les données.
  3. Nettoyer les données.
  4. Formater les données.
  5. Combiner les données.
  6. Enfin, analyser les données.

Accès

Il existe de nombreuses sources de données d'entreprise au sein d'une organisation. Il s'agit par exemple des données des points d'extrémité, des données des clients, des données marketing et de tous les référentiels qui leur sont associés. Cette première étape essentielle de la préparation des données consiste à identifier les données nécessaires et leurs référentiels. Il ne s'agit pas simplement d'identifier toutes les sources de données et tous les référentiels possibles, mais d'identifier tous ceux qui s'appliquent à l'analyse souhaitée. Cela signifie qu'il faut d'abord établir un plan qui inclut les questions spécifiques auxquelles l'analyse des données doit répondre.

Ingérer

Une fois les données identifiées, elles doivent être introduites dans les outils d'analyse. Il s'agira probablement d'une combinaison de données structurées et semi-structurées dans différents types de référentiels. L'importation de toutes ces données dans un dépôt commun est nécessaire pour les étapes suivantes de la chaîne de traitement. L'accès et l'ingestion ont tendance à être des processus manuels avec des variations significatives dans ce qui doit être fait exactement. Ces deux étapes de préparation des données requièrent une combinaison d'expertise commerciale et informatique et il est donc préférable qu'elles soient réalisées par une petite équipe. Cette étape est également la première occasion de valider les données.

Nettoyer

Le nettoyage des données permet de s'assurer que l'ensemble des données peut fournir des réponses valables lorsqu'elles sont analysées. Cette étape peut être réalisée manuellement pour les petits ensembles de données, mais nécessite une automatisation pour les ensembles de données de taille plus réaliste. Il existe des outils logiciels pour ce traitement. Si un traitement personnalisé est nécessaire, de nombreux ingénieurs des données s'appuient sur des applications codées en Python. Les données ingérées peuvent poser de nombreux problèmes. Il peut s'agir de valeurs manquantes, de valeurs hors plage, de valeurs nulles et d'espaces blancs qui obscurcissent les valeurs, ainsi que de valeurs aberrantes qui peuvent fausser les résultats de l'analyse. Les valeurs aberrantes sont particulièrement problématiques lorsqu'elles résultent de la combinaison de deux variables ou plus dans l'ensemble de données. Les ingénieurs des données doivent planifier soigneusement la manière dont ils vont nettoyer leurs données.

Format

Une fois l'ensemble de données nettoyé, il doit être formaté. Cette étape consiste à résoudre des problèmes tels que des formats de date multiples dans les données ou des abréviations incohérentes. Il est également possible que certaines variables de données ne soient pas nécessaires à l'analyse et doivent donc être supprimées de l'ensemble de données d'analyse. Il s'agit là d'une autre étape de la préparation des données qui avantage l'automatisation. Les étapes de nettoyage et de formatage doivent être enregistrées dans une recette reproductible que les scientifiques ou les ingénieurs pourront appliquer à des ensembles de données similaires à l'avenir. Par exemple, une analyse mensuelle des données de vente et d'support comportera probablement les mêmes sources qui nécessiteront les mêmes étapes de nettoyage et de formatage chaque mois.

Combiner

Lorsque l'ensemble de données a été nettoyé et formaté, il peut être transformé en fusionnant, en divisant ou en joignant les ensembles d'entrée. Une fois l'étape de combinaison terminée, les données sont prêtes à être transférées dans la zone de préparation de l'entrepôt de données. Une fois les données chargées dans la zone de transit, une deuxième possibilité de validation s'offre à nous.

Analyser

Une fois l'analyse commencée, les changements apportés à l'ensemble des données ne doivent être effectués qu'après mûre réflexion. Au cours de l'analyse, les algorithmes sont souvent ajustés et comparés à d'autres résultats. Les modifications apportées aux données peuvent fausser les résultats de l'analyse et rendre impossible de déterminer si les différents résultats sont dus à des modifications apportées aux données ou aux algorithmes.

Principes et bonnes pratiques de préparation des données

De nombreux principes de la programmation fonctionnelle peuvent être appliqués à la préparation des données. Il n'est pas nécessaire d'utiliser un langage de programmation fonctionnelle pour automatiser la préparation des données, mais de tels langages sont souvent utilisés à cette fin.

  1. Comprendre le consommateur de données - qui va utiliser les données et quelles sont les questions auxquelles il doit répondre.
  2. Comprendre les données - d'où elles proviennent et comment elles ont été générées.
  3. Sauvegarder les données brutes. Si l'ingénieur des données dispose des données brutes, toutes les transformations de données peuvent être recréées. En outre, ne déplacez pas et ne supprimez pas les données brutes une fois qu'elles sont sauvegardées.
  4. Si possible, conservez toutes les données, brutes et traitées. Bien entendu, les réglementations relatives à la protection de la vie privée, telles que le Règlement général sur la protection des données (RGPD) de l'Union européenne (UE), influenceront le type de données pouvant être sauvegardées et leur durée.
  5. Veiller à ce que les transformations soient reproductibles, déterministes et idempotentes. Chaque transformation doit produire les mêmes résultats chaque fois qu'elle est exécutée avec le même ensemble de données d'entrée, sans effets néfastes.
  6. Assurez la pérennité de votre pipeline de données. Versionnez non seulement les données et le code qui effectue l'analyse, mais aussi les transformations qui ont été appliquées aux données.
  7. Veiller à ce qu'il y ait une séparation adéquate entre le système en ligne et l'analyse hors ligne afin que l'étape d'ingestion n'ait pas d'incidence sur les services utilisateur
  8. Contrôler le pipeline de données pour s'assurer de la cohérence des ensembles de données.
  9. Employer la gouvernance données dès le début et être proactif. Les besoins des services informatiques en matière de sécurité et de conformité signifient que l'intégration de capacités de gouvernance telles que le masquage des données, la conservation, le lignage et les autorisations basées sur les rôles sont tous des aspects importants du pipeline.

Connaissez vos données, les besoins de vos clients et mettez en place un processus reproductible pour construire votre pipeline de préparation des données.

Faciliter l'intégration des données

Actian DataConnect est une solution d'intégration hybride polyvalente. Elle vous permet de vous connecter à pratiquement n'importe quelle source de données, quel que soit son format ou son emplacement, en utilisant n'importe quel protocole qui permet aux utilisateurs professionnels, aux spécialistes de l'intégration, aux administrateurs SaaS et aux propriétaires de lignes d'affaires d'être plus autonomes. Les utilisateurs peuvent concevoir et gérer des intégrations et déplacer des données rapidement, tandis que le service informatique maintient la gouvernance l'entreprise. Découvrez comment Actian peut vous aider à répondre à tous vos besoins en matière d'intégration de données, de gestion des données et de stockage de données ici.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.