Intelligence des données

7 mensonges sur les catalogues de données #6 : il faut s'appuyer sur l'automatisation

Actian Corporation

9 juillet 2021

Diagramme de gestion des processus d'affaires et d'automatisation du flux de travail avec des engrenages et des icônes avec un réseau de lignes de connexion en arrière-plan. Gestionnaire touchant l'interface

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.

 Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .

La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.

L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.

Un catalogue de données doit s'appuyer sur l'automatisation

Certains vendeurs de catalogue de données , issus du monde de la cartographie, ont développé une rhétorique selon laquelle l'automatisation est un sujet secondaire, qui peut être abordé à un stade ultérieur.

Ils vous diront que quelques importations manuelles de fichiers suffisent, ainsi qu'une généreuse communauté d'utilisateur collaborant à leur outil pour alimenter et utiliser le catalogue. Un peu d'arithmétique suffit pour comprendre pourquoi cette approche est vouée à l'échec dans une organisation centrée sur les données.

Un lac de données actif, même modeste, recueille rapidement, dans ses différentes couches, des centaines, voire des milliers de jeux de données. A ces jeux de données peuvent s'ajouter ceux provenant d'autres systèmes (applications de base de données, API diverses, CRM, ERP, noSQL, etc) que l'on souhaite généralement intégrer dans le catalogue.

Les ordres de grandeur dépassent rapidement les milliers, voire les dizaines de milliers de jeux de données. Chaque jeu de données contient des dizaines de champs. Les jeux de données et les champs représentent à eux seuls plusieurs centaines de milliers d'objets (on pourrait aussi inclure d'autres actifs : modèles ML, tableaux de bord, rapports, etc). Pour que le catalogue soit utile, il ne suffit pas d'inventorier ces objets.

Il faut également y associer toutes les propriétésmétadonnées) qui permettront aux utilisateurs finaux de trouver, comprendre et exploiter ces actifs. Il existe plusieurs types de métadonnées: informations techniques, classification métier, sémantique, sécurité, sensibilité, qualité, normes, usages, popularité, contacts, etc. Là encore, pour chaque actif, il existe des dizaines de propriétés.

Retour à l'arithmétique: Globalement, nous avons affaire à des millions d'attributs qui doivent être gérés.

Ces volumes devraient à eux seuls disqualifier toute tentation de choisir l'approche manuelle. Mais ce n'est pas tout. Le stock d'actifs informationnels n'est pas statique. Il s'accroît constamment. Dans une organisation centrée sur les données, des ensembles de données sont créés quotidiennement, d'autres sont déplacés ou modifiés.

Le catalogue de données doit refléter ces changements.

Sinon, son contenu sera définitivement obsolète et les utilisateurs finaux le rejetteront. Qui fera confiance à un catalogue de données incomplet et erroné ? Si vous pensez que votre organisation peut absorber la charge et maintenir votre catalogue à jour, c'est formidable. Dans le cas contraire, nous vous suggérons de contrôler le plus rapidement possible le niveau d'automatisation offert par les différentes solutions que vous envisagez.

Que peut-on automatiser dans un catalogue de données?

En termes d'automatisation, la capacité la plus importante est l'inventaire.

Un catalogue de données doit être capable de scanner régulièrement toutes vos sources de données et de mettre à jour automatiquement l'inventaire des actifs (ensembles de données, structures et métadonnées techniques au minimum) pour refléter la réalité quotidienne des systèmes d'hébergement.

Croyez-nous : un catalogue de données qui ne peut pas se connecter à vos sources de données deviendra rapidement inutile, car son contenu sera toujours incertain.

Une fois l'inventaire terminé, le défi suivant consiste à automatiser l'alimentation du métamodèle.

Ici, au-delà des métadonnées techniques, l'automatisation complète semble un peu difficile à imaginer. Il est encore possible de réduire significativement la charge de travail nécessaire à la maintenance du métamodèle. La valeur de certaines propriétés peut être déterminée par simple application de règles au moment de l'intégration des objets dans le catalogue.

Il est également possible de suggérer des valeurs de propriétés à l'aide d'algorithmes plus ou moins sophistiqués (analyse sémantique, pattern matching, etc.).

Enfin, il est souvent possible d'alimenter une partie du catalogue en intégrant les systèmes qui produisent ou contiennent des métadonnées. Cela peut s'appliquer par exemple à la mesure de la qualité, aux informations de lignage, aux ontologies d'entreprise, etc.

Pour que cette approche fonctionne, le catalogue de données doit être ouvert et offrir un ensemble complet d'API permettant de mettre à jour les métadonnées à partir d'autres systèmes.

À emporter

Un catalogue de données traite des millions d'informations dans un paysage en constante évolution.

La gestion manuelle de ces informations est pratiquement impossible ou extrêmement coûteuse. Sans automatisation, le contenu du catalogue sera toujours incertain et les équipes chargées des données ne l'utiliseront pas.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.