Intelligence des données

7 mensonges sur les catalogues de données #2 : Pas une solution de qualité

Actian Corporation

21 juin 2021

la qualité des données

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré plusieurs acteurs des marchés adjacents.

 Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .

La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.

L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.

Un catalogue de données n'est PAS une solution de gestion de la qualité des données (DQM)

Chez Zeenea, nous ne sous-estimons pas l'importance de la qualité des données pour mener à bien un projet de données, bien au contraire. Il me semble tout simplement absurde de confier cette tâche à une solution qui, de par sa nature même, ne peut pas effectuer les contrôles au bon moment.

Expliquons: Il existe une règle très élémentaire en matière de contrôle de la qualité, une règle qui peut être appliquée pratiquement dans tous les domaines où la qualité est un problème, qu'il s'agisse d'une chaîne de production industrielle, du développement d'un logiciel ou de la cuisine d'un restaurant 5 étoiles : Plus le problème est détecté tôt, moins il coûtera cher à corriger.

Pour illustrer ce point, il est peu probable qu'un constructeur automobile s'abstienne de tester la batterie d'un nouveau véhicule avant qu'il ne soit construit, que tous les coûts de production aient déjà été encourus et que la résolution d'un défaut soit la plus coûteuse. Non. Chaque pièce est étroitement contrôlée, chaque étape de la production est testée, les pièces défectueuses sont retirées avant même d'être intégrées dans le circuit de production, et toute la chaîne de production peut être arrêtée si des problèmes de qualité sont détectés à n'importe quel stade. Les problèmes de qualité sont corrigés le plus tôt possible dans le processus de production, là où ils sont les moins coûteux et les plus durables.

"Dans une organisation moderne de données, la production de données repose sur les mêmes principes. Il s'agit d'une chaîne d'assemblage dont l'objectif est de fournir un usage à haute valeur ajoutée. Le contrôle de la qualité et la correction doivent intervenir à chaque étape. La nature et le niveau des contrôles dépendent de l'usage qui est fait des données".

Si vous manipulez des données, vous avez évidemment à votre disposition des pipelines pour alimenter vos utilisations. Ces pipelines peuvent comporter des dizaines d'étapes - acquisition de données, nettoyage de données, transformations diverses, mélange de diverses sources de données, etc.

Afin de développer ces pipelines, vous avez probablement un certain nombre de technologies en jeu, allant des scripts interne aux ETL coûteux et aux outils exotiques de middleware. C'est dans ces pipelines que vous devez insérer et piloter votre contrôle de qualité, le plus tôt possible, en les adaptant aux enjeux du produit final. Ne mesurer les niveaux de qualité des données qu'en fin de chaîne n'est pas seulement absurde, c'est totalement inefficace.

Il est donc difficile de voir comment un catalogue de données (dont le but est d'inventorier et de documenter tous les ensembles de données potentiellement utilisables afin de faciliter la découverte de données et l'utilisation) peut être un outil utile pour mesurer et gérer la qualité.

Un catalogue de données fonctionne sur les ensembles de données disponibles, sur tous les systèmes qui contiennent des données, et doit être aussi peu invasif que possible afin d'être déployé rapidement dans l'ensemble de l'organisation.

Une solution DQM travaille sur le flux de données (les pipelines), se concentre sur les données de production et est, de par sa conception, intrusive et longue à déployer. Je ne vois pas d'architecture logicielle capable de résoudre ces deux problèmes sans compromettre la qualité de l'un ou de l'autre.

Les fournisseurs de catalogue de données qui promettent de résoudre vos problèmes de qualité des données sont, à notre avis, dans l'embarras et il semble peu probable qu'ils puissent aller au-delà d'une démonstration "commerciale".

Quant aux fournisseurs de DQM (qui vendent aussi souvent des ETL), leurs solutions sont souvent trop complexes et trop coûteuses pour être déployées en tant que catalogues de données crédibles.

La bonne nouvelle est que la nature orthogonale de la qualité des données et du catalogage des données permet à des solutions spécialisées dans chaque domaine de coexister sans empiéter sur le terrain de l'autre.

En effet, bien qu'un catalogue de données ne soit pas destiné au contrôle de la qualité, il peut exploiter les informations sur la qualité des ensembles de données qu'il contient, ce qui présente évidemment de nombreux avantages.

Le catalogue de données utilise ces métadonnées par exemple pour partager l'information (et les alertes éventuelles qu'elle peut identifier) avec les consommateurs de données. Le catalogue peut avantage de ces informations pour ajuster son moteur de recherche et de recommandation et ainsi orienter les autres utilisateurs vers des jeux de données de meilleure qualité.

Et les deux solutions peuvent être intégrées à peu de frais avec quelques API ici et là.

À emporter

La qualité des données doit être évaluée le plus tôt possible dans l'alimentation du pipeline.

Le rôle du catalogue de données n'est pas de faire du contrôle de qualité mais de partager autant que possible les résultats de ces contrôles. Par nature, les catalogues de données sont de mauvaises solutions de gestion de la qualité, et les solutions de gestion de la qualité sont des catalogues de données médiocres et trop complexes.

L'intégration entre une solution DQM et un catalogue de données est très simple et constitue l'approche la plus pragmatique.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.