7 mensonges sur les catalogues de données #2 : Pas une solution de qualité
Actian Corporation
21 juin 2021

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré plusieurs acteurs des marchés adjacents.
Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .
La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.
L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.
Voici, selon nous, les 7 mensonges des vendeurs de catalogue de données :
- Un catalogue de données est une plateforme de gouvernance données.
- Un catalogue de données permet de mesurer et de gérer la qualité des données.
- Un catalogue de données permet de gérer la conformité réglementaire.
- Un catalogue de données peut requête données directement.
- Un catalogue de données peut modéliser l'architecture logique et les processus d'entreprise autour des données.
- Le catalogue de données est un outil collaboratif de cartographie et de gestion des métadonnées qui ne peut être automatisé.
- Un catalogue de données est un projet long, complexe et coûteux.
Un catalogue de données n'est PAS une solution de gestion de la qualité des données (DQM)
Chez Zeenea, nous ne sous-estimons pas l'importance de la qualité des données pour mener à bien un projet de données, bien au contraire. Il me semble tout simplement absurde de confier cette tâche à une solution qui, de par sa nature même, ne peut pas effectuer les contrôles au bon moment.
Expliquons: Il existe une règle très élémentaire en matière de contrôle de la qualité, une règle qui peut être appliquée pratiquement dans tous les domaines où la qualité est un problème, qu'il s'agisse d'une chaîne de production industrielle, du développement d'un logiciel ou de la cuisine d'un restaurant 5 étoiles : Plus le problème est détecté tôt, moins il coûtera cher à corriger.
Pour illustrer ce point, il est peu probable qu'un constructeur automobile s'abstienne de tester la batterie d'un nouveau véhicule avant qu'il ne soit construit, que tous les coûts de production aient déjà été encourus et que la résolution d'un défaut soit la plus coûteuse. Non. Chaque pièce est étroitement contrôlée, chaque étape de la production est testée, les pièces défectueuses sont retirées avant même d'être intégrées dans le circuit de production, et toute la chaîne de production peut être arrêtée si des problèmes de qualité sont détectés à n'importe quel stade. Les problèmes de qualité sont corrigés le plus tôt possible dans le processus de production, là où ils sont les moins coûteux et les plus durables.
"Dans une organisation moderne de données, la production de données repose sur les mêmes principes. Il s'agit d'une chaîne d'assemblage dont l'objectif est de fournir un usage à haute valeur ajoutée. Le contrôle de la qualité et la correction doivent intervenir à chaque étape. La nature et le niveau des contrôles dépendent de l'usage qui est fait des données".
Si vous manipulez des données, vous avez évidemment à votre disposition des pipelines pour alimenter vos utilisations. Ces pipelines peuvent comporter des dizaines d'étapes - acquisition de données, nettoyage de données, transformations diverses, mélange de diverses sources de données, etc.
Afin de développer ces pipelines, vous avez probablement un certain nombre de technologies en jeu, allant des scripts interne aux ETL coûteux et aux outils exotiques de middleware. C'est dans ces pipelines que vous devez insérer et piloter votre contrôle de qualité, le plus tôt possible, en les adaptant aux enjeux du produit final. Ne mesurer les niveaux de qualité des données qu'en fin de chaîne n'est pas seulement absurde, c'est totalement inefficace.
Il est donc difficile de voir comment un catalogue de données (dont le but est d'inventorier et de documenter tous les ensembles de données potentiellement utilisables afin de faciliter la découverte de données et l'utilisation) peut être un outil utile pour mesurer et gérer la qualité.
Un catalogue de données fonctionne sur les ensembles de données disponibles, sur tous les systèmes qui contiennent des données, et doit être aussi peu invasif que possible afin d'être déployé rapidement dans l'ensemble de l'organisation.
Une solution DQM travaille sur le flux de données (les pipelines), se concentre sur les données de production et est, de par sa conception, intrusive et longue à déployer. Je ne vois pas d'architecture logicielle capable de résoudre ces deux problèmes sans compromettre la qualité de l'un ou de l'autre.
Les fournisseurs de catalogue de données qui promettent de résoudre vos problèmes de qualité des données sont, à notre avis, dans l'embarras et il semble peu probable qu'ils puissent aller au-delà d'une démonstration "commerciale".
Quant aux fournisseurs de DQM (qui vendent aussi souvent des ETL), leurs solutions sont souvent trop complexes et trop coûteuses pour être déployées en tant que catalogues de données crédibles.
La bonne nouvelle est que la nature orthogonale de la qualité des données et du catalogage des données permet à des solutions spécialisées dans chaque domaine de coexister sans empiéter sur le terrain de l'autre.
En effet, bien qu'un catalogue de données ne soit pas destiné au contrôle de la qualité, il peut exploiter les informations sur la qualité des ensembles de données qu'il contient, ce qui présente évidemment de nombreux avantages.
Le catalogue de données utilise ces métadonnées par exemple pour partager l'information (et les alertes éventuelles qu'elle peut identifier) avec les consommateurs de données. Le catalogue peut avantage de ces informations pour ajuster son moteur de recherche et de recommandation et ainsi orienter les autres utilisateurs vers des jeux de données de meilleure qualité.
Et les deux solutions peuvent être intégrées à peu de frais avec quelques API ici et là.
À emporter
La qualité des données doit être évaluée le plus tôt possible dans l'alimentation du pipeline.
Le rôle du catalogue de données n'est pas de faire du contrôle de qualité mais de partager autant que possible les résultats de ces contrôles. Par nature, les catalogues de données sont de mauvaises solutions de gestion de la qualité, et les solutions de gestion de la qualité sont des catalogues de données médiocres et trop complexes.
L'intégration entre une solution DQM et un catalogue de données est très simple et constitue l'approche la plus pragmatique.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.