7 mensonges sur les catalogues de données #4 : Pas une solution de requête
Actian Corporation
2 juillet 2021

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.
Ces acteurs ont modifié leur positionnement marketing pour se présenter comme des solutions de catalogue de données .
La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.
L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.
Voici, selon nous, les 7 mensonges des vendeurs de catalogue de données :
- Un catalogue de données est une plateforme de gouvernance données.
- Un catalogue de données permet de mesurer et de gérer la qualité des données.
- Un catalogue de données permet de gérer la conformité réglementaire.
- Un catalogue de données peut requête données directement.
- Un catalogue de données peut modéliser l'architecture logique et les processus d'entreprise autour des données.
- Le catalogue de données est un outil collaboratif de cartographie et de gestion des métadonnées qui ne peut être automatisé.
- Un catalogue de données est un projet long, complexe et coûteux.
Un catalogue de données n'est PAS une solution de requête
Voici une autre bizarrerie du marché des catalogue de données . Plusieurs fournisseurs, dont l'objectif initial était de permettre aux utilisateurs d'requête simultanément plusieurs sources de données, ont "pivoté" vers un positionnement de catalogue de données sur le marché.
Il y a une raison pour qu'ils pivotent.
L'émergence des lacs de données et du Big Data les a acculés dans un cul-de-sac technologique qui a affaibli le segment de marché dans lequel ils se trouvaient initialement.
Un Data Lake est typiquement segmenté en plusieurs couches. La couche " brute " intègre des données sans transformation, dans des formats plus ou moins structurés et en grande quantité ; Une deuxième couche, que nous appellerons " propre ", contiendra à peu près les mêmes données mais dans des formats normalisés, après un dépoussiérage. Ensuite, il peut y avoir une ou plusieurs couches "business" prêtes à l'emploi : Un entrepôt de données et un outil de visualisation pour l'analyse, un cluster Spark pour la science des données, un système de stockage pour la distribution commerciale, etc. Au sein de ces couches, les données sont transformées, agrégées et optimisées pour l'utilisation, ainsi que les outils supportant cette utilisation (outils de visualisation de données, notebooks, traitement massif, etc).
Dans ce paysage, un outil universel de libre-service requête n'est pas adapté.
Il est bien sûr possible de mettre en place une couche d'interprétation SQL au-dessus de la couche "propre" (comme Hive) mais l'exécution de requête reste un domaine de spécialistes. Les volumes de données sont énormes et rarement indexés.
Permettre aux utilisateurs de définir leurs propres requêtes est très risqué : sur les systèmes sur site, ils risquent de faire s'effondrer le cluster en exécutant une requête très coûteuse. Et sur les systèmes en nuage, la facture pourrait être très élevée. Sans parler des problèmes de sécurité et de sensibilité des données.
Quant aux couches "métier", elles sont généralement couplées à des solutions plus spécialisées (comme une combinaison de Snowflake et Tableau pour l'analytique) qui proposent un outillage très complet et sécurisé, offrant de grandes performances pour les requêtes en libre-service . Leur espace de marché se réduisant comme neige au soleil, certains fournisseurs de requête multi-sources se sont orientés vers les catalogues de données.
Leur discours est maintenant de convaincre les clients que la capacité d'exécuter des requêtes fait de leur solution la Rolls-Royce des catalogues de données (afin de justifier leur prix à six chiffres). Nous vous invitons à y réfléchir à deux fois.
À emporter
Dans une architecture de données moderne, la capacité d'exécuter des requêtes à partir d'un catalogue de données n'est pas seulement inutile, elle est aussi très risquée (performance, coût, sécurité, etc.).
Les équipes chargées des données disposent déjà de leurs propres outils pour exécuter des requêtes sur les données, et si ce n'est pas le cas, il peut être judicieux de les équiper. Intégrer les problématiques d'accès aux données dans le déploiement 'un catalogue est le plus sûr moyen d'en faire un projet long, coûteux et décevant.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.