Intelligence des données

7 mensonges sur les catalogues de données #4 : Pas une solution de requête

Actian Corporation

2 juillet 2021

un catalogue de données n'est pas une solution de requête

Le marché du catalogue de données s'est développé rapidement, et il est désormais considéré comme essentiel dans le déploiement d'une stratégie axée sur les données. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.

 Ces acteurs ont modifié leur positionnement marketing pour se présenter comme des solutions de catalogue de données .

La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.

L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.

Un catalogue de données n'est PAS une solution de requête

Voici une autre bizarrerie du marché des catalogue de données . Plusieurs fournisseurs, dont l'objectif initial était de permettre aux utilisateurs d'requête simultanément plusieurs sources de données, ont "pivoté" vers un positionnement de catalogue de données sur le marché.

Il y a une raison pour qu'ils pivotent.

L'émergence des lacs de données et du Big Data les a acculés dans un cul-de-sac technologique qui a affaibli le segment de marché dans lequel ils se trouvaient initialement.

Un Data Lake est typiquement segmenté en plusieurs couches. La couche " brute " intègre des données sans transformation, dans des formats plus ou moins structurés et en grande quantité ; Une deuxième couche, que nous appellerons " propre ", contiendra à peu près les mêmes données mais dans des formats normalisés, après un dépoussiérage. Ensuite, il peut y avoir une ou plusieurs couches "business" prêtes à l'emploi : Un entrepôt de données et un outil de visualisation pour l'analyse, un cluster Spark pour la science des données, un système de stockage pour la distribution commerciale, etc. Au sein de ces couches, les données sont transformées, agrégées et optimisées pour l'utilisation, ainsi que les outils supportant cette utilisation (outils de visualisation de données, notebooks, traitement massif, etc).

Dans ce paysage, un outil universel de libre-service requête n'est pas adapté.

Il est bien sûr possible de mettre en place une couche d'interprétation SQL au-dessus de la couche "propre" (comme Hive) mais l'exécution de requête reste un domaine de spécialistes. Les volumes de données sont énormes et rarement indexés.

Permettre aux utilisateurs de définir leurs propres requêtes est très risqué : sur les systèmes sur site, ils risquent de faire s'effondrer le cluster en exécutant une requête très coûteuse. Et sur les systèmes en nuage, la facture pourrait être très élevée. Sans parler des problèmes de sécurité et de sensibilité des données.

Quant aux couches "métier", elles sont généralement couplées à des solutions plus spécialisées (comme une combinaison de Snowflake et Tableau pour l'analytique) qui proposent un outillage très complet et sécurisé, offrant de grandes performances pour les requêtes en libre-service . Leur espace de marché se réduisant comme neige au soleil, certains fournisseurs de requête multi-sources se sont orientés vers les catalogues de données.

Leur discours est maintenant de convaincre les clients que la capacité d'exécuter des requêtes fait de leur solution la Rolls-Royce des catalogues de données (afin de justifier leur prix à six chiffres). Nous vous invitons à y réfléchir à deux fois.

À emporter

Dans une architecture de données moderne, la capacité d'exécuter des requêtes à partir d'un catalogue de données n'est pas seulement inutile, elle est aussi très risquée (performance, coût, sécurité, etc.).

Les équipes chargées des données disposent déjà de leurs propres outils pour exécuter des requêtes sur les données, et si ce n'est pas le cas, il peut être judicieux de les équiper. Intégrer les problématiques d'accès aux données dans le déploiement 'un catalogue est le plus sûr moyen d'en faire un projet long, coûteux et décevant.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.