7 mensonges sur les catalogues de données #6 : il faut s'appuyer sur l'automatisation
Actian Corporation
9 juillet 2021

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.
Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .
La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.
L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.
Voici, selon nous, les 7 mensonges des vendeurs de catalogue de données :
- Un catalogue de données est une plateforme de gouvernance données.
- Un catalogue de données permet de mesurer et de gérer la qualité des données.
- Un catalogue de données permet de gérer la conformité réglementaire.
- Un catalogue de données peut requête données directement.
- Un catalogue de données peut modéliser l'architecture logique et les processus d'entreprise autour des données.
- Le catalogue de données est un outil collaboratif de cartographie et de gestion des métadonnées qui ne peut être automatisé.
- Un catalogue de données est un projet long, complexe et coûteux.
Un catalogue de données doit s'appuyer sur l'automatisation
Certains vendeurs de catalogue de données , issus du monde de la cartographie, ont développé une rhétorique selon laquelle l'automatisation est un sujet secondaire, qui peut être abordé à un stade ultérieur.
Ils vous diront que quelques importations manuelles de fichiers suffisent, ainsi qu'une généreuse communauté d'utilisateur collaborant à leur outil pour alimenter et utiliser le catalogue. Un peu d'arithmétique suffit pour comprendre pourquoi cette approche est vouée à l'échec dans une organisation centrée sur les données.
Un lac de données actif, même modeste, recueille rapidement, dans ses différentes couches, des centaines, voire des milliers de jeux de données. A ces jeux de données peuvent s'ajouter ceux provenant d'autres systèmes (applications de base de données, API diverses, CRM, ERP, noSQL, etc) que l'on souhaite généralement intégrer dans le catalogue.
Les ordres de grandeur dépassent rapidement les milliers, voire les dizaines de milliers de jeux de données. Chaque jeu de données contient des dizaines de champs. Les jeux de données et les champs représentent à eux seuls plusieurs centaines de milliers d'objets (on pourrait aussi inclure d'autres actifs : modèles ML, tableaux de bord, rapports, etc). Pour que le catalogue soit utile, il ne suffit pas d'inventorier ces objets.
Il faut également y associer toutes les propriétésmétadonnées) qui permettront aux utilisateurs finaux de trouver, comprendre et exploiter ces actifs. Il existe plusieurs types de métadonnées: informations techniques, classification métier, sémantique, sécurité, sensibilité, qualité, normes, usages, popularité, contacts, etc. Là encore, pour chaque actif, il existe des dizaines de propriétés.
Retour à l'arithmétique: Globalement, nous avons affaire à des millions d'attributs qui doivent être gérés.
Ces volumes devraient à eux seuls disqualifier toute tentation de choisir l'approche manuelle. Mais ce n'est pas tout. Le stock d'actifs informationnels n'est pas statique. Il s'accroît constamment. Dans une organisation centrée sur les données, des ensembles de données sont créés quotidiennement, d'autres sont déplacés ou modifiés.
Le catalogue de données doit refléter ces changements.
Sinon, son contenu sera définitivement obsolète et les utilisateurs finaux le rejetteront. Qui fera confiance à un catalogue de données incomplet et erroné ? Si vous pensez que votre organisation peut absorber la charge et maintenir votre catalogue à jour, c'est formidable. Dans le cas contraire, nous vous suggérons de contrôler le plus rapidement possible le niveau d'automatisation offert par les différentes solutions que vous envisagez.
Que peut-on automatiser dans un catalogue de données?
En termes d'automatisation, la capacité la plus importante est l'inventaire.
Un catalogue de données doit être capable de scanner régulièrement toutes vos sources de données et de mettre à jour automatiquement l'inventaire des actifs (ensembles de données, structures et métadonnées techniques au minimum) pour refléter la réalité quotidienne des systèmes d'hébergement.
Croyez-nous : un catalogue de données qui ne peut pas se connecter à vos sources de données deviendra rapidement inutile, car son contenu sera toujours incertain.
Une fois l'inventaire terminé, le défi suivant consiste à automatiser l'alimentation du métamodèle.
Ici, au-delà des métadonnées techniques, l'automatisation complète semble un peu difficile à imaginer. Il est encore possible de réduire significativement la charge de travail nécessaire à la maintenance du métamodèle. La valeur de certaines propriétés peut être déterminée par simple application de règles au moment de l'intégration des objets dans le catalogue.
Il est également possible de suggérer des valeurs de propriétés à l'aide d'algorithmes plus ou moins sophistiqués (analyse sémantique, pattern matching, etc.).
Enfin, il est souvent possible d'alimenter une partie du catalogue en intégrant les systèmes qui produisent ou contiennent des métadonnées. Cela peut s'appliquer par exemple à la mesure de la qualité, aux informations de lignage, aux ontologies d'entreprise, etc.
Pour que cette approche fonctionne, le catalogue de données doit être ouvert et offrir un ensemble complet d'API permettant de mettre à jour les métadonnées à partir d'autres systèmes.
À emporter
Un catalogue de données traite des millions d'informations dans un paysage en constante évolution.
La gestion manuelle de ces informations est pratiquement impossible ou extrêmement coûteuse. Sans automatisation, le contenu du catalogue sera toujours incertain et les équipes chargées des données ne l'utiliseront pas.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.