Intelligence des données

Tout ce qu'il faut savoir sur la structure de données (Data Fabric)

Actian Corporation

13 avril 2022

La structure des données (Data Fabric)

Dès 2019, Gartner a identifié le concept de Data Fabric comme une tendance technologique majeure pour 2022. Derrière ce buzzword se cache un objectif important : maximiser la valeur de vos données et accélérer votre transformation digitale. Il ne vous reste plus qu'à découvrir comment en suivant ce guide.

Mettre de l'ordre dans vos données, c'est la promesse d'une Data Fabric. Cependant, il ne s'agit pas simplement d'une solution pour organiser ou structurer l'information. Une Data Fabric est un outil conçu pour donner de la valeur à vos données. En effet, le volume de données générées par les entreprises croît de manière exponentielle. Chaque seconde, il y a de plus en plus de données à exploiter qui permettent aux organisations d'être plus efficaces et plus optimiser avec leur marché ou avec leurs clients. Les chiffres parlent d'eux-mêmes : IDC estime qu'en 2025, le volume de données générées dans le monde atteindra 175 zettaoctets. Un volume si important que, s'il était stocké sur Blu-ray, il représenterait une pile de disques équivalant à 23 fois la distance entre la Terre et la Lune.

Qu'est-ce que le Data Fabric ?

Gartner définit la Data Fabric comme "un concept de conception qui agit comme une couche intégrée de données et de processus de connexion". En d'autres termes, une Data Fabric analyse en permanence les combinaisons de métadonnées existantes, accessibles et déduites afin de fournir des informations plus intelligentes et de support tâches degestion des données de manière plus efficace. Une Data Fabric utilise ensuite toute cette analyse des métadonnées pour concevoir de nouveaux processus et établir un accès normalisé aux données pour tous les profils professionnels au sein de l'entreprise : développeurs d'applications, analystes, scientifiques des données, etc.

Une structure de données est donc une série de processus qui lisent, capturent, intègrent et fournissent des données en fonction de la compréhension de l'utilisateur des données, de la classification des types d'utilisation et de la surveillance des changements dans les schémas d'utilisation des données.

Les avantages d'une structure de données pour les entreprises

Gartner explique que d'ici 2024, le déploiement des Data Fabrics au sein des organisations quadruplera l'efficacité de l'exploitation des données tout en réduisant de moitié les tâches de gestion des données effectuées par les humains. En ce sens, l'institut identifie trois principaux domaines d'opportunité apportés par une Data Fabric :

  1. Une réduction de 70 % des tâches de découverte de données, d'analyse et d'intégration pour les équipes chargées des données. d'analyse et d'intégration pour les équipes chargées des données ;
  2. L'augmentation du nombre d'utilisateurs de donnéesL'augmentation du nombre d'utilisateurs de données, en réutilisant les données pour un plus grand nombre de cas d'utilisation ;
  3. La capacité de tirer le meilleur parti d'un plus grand nombre de données en accélérant considérablement l'introduction et l'exploitation de données secondaires et de tiers.

D'un point de vue technologique, une Data Fabric s'adapte aux outils déjà en place au sein d'une organisation. Elle peut évoluer à partir des outils d'intégration et de qualité, desplateformes données et de gouvernance existants (comme un datalog de données, par exemple - nous y reviendrons). En ce sens, son modèle de conception est idéal puisqu'il utilise votre technologie existante tout en poursuivant un changement stratégique dans votre gestion des données globale gestion des données.

Enfin, la Data Fabric aide les entreprises à briser les silos de données. Vous pouvez alors réduire les coûts et les efforts de vos équipes de données qui doivent constamment fusionner, refondre et redéployer les silos de gestion des données avec de nouveaux silos.

La contribution d'un catalogue de données à une structure de données (Data Fabric)

Si nous reprenons la notion de notion de "couche intégrée" de la définition d'une Data Fabric ainsi que le schéma proposé par Gartner (ci-dessous), on constate que le catalogue de données joue un rôle fondamental dans la constitution d'une Data Fabric. En effet, il influence les couches supérieures qui forment une Data Fabric efficace.

Niveau 1 - Accès à tous les types de métadonnées

Un catalogue de données est la base d'une structure Data Fabric - c'est la première couche (grise). Il prend en charge l'identification, la collecte et l'analyse de toutes les sources de données et de tous les types de métadonnées. Le catalogue de données est le point de départ d'une structure de données.

Couche 2 - métadonnées Enablement et Knowledge Graph

Dans la deuxième couche d'un Data Fabric (jaune), Garner se concentre sur l'activation desmétadonnées . Cette activation implique l'analyse continue des métadonnées pour calculer des indicateurs clés. Cette analyse est facilitée par l'utilisation de l'intelligence artificielle (IA), de l'apprentissage automatique (ML) et de l'intégration automatisée des données.

Les modèles et les connexions détectés sont ensuite réinjectés dans le catalogue de données et dans d'autres outils de gestion des données afin de formuler des recommandations aux personnes et aux machines impliquées dans la gestion des données et l'intégration. Cela nécessite une analyse continue à partir d'un graphe de connaissances connecté - le moyen de créer et de visualiser les relations existantes entre les actifs de données de différents types, de leur donner un sens commercial et de rendre cet ensemble de relations facile à découvrir et à parcourir par tous les utilisateurs de l'organisation.

Couche 3 - Intégration dynamique des données

La troisième couche de Gartner (en bleu) s'adresse principalement aux consommateurs techniques de données dans les organisations. Cette couche de la "Data Fabric" fait référence à la nécessité de préparer, intégrer, explorer et transformer les données. Le défi consiste ici à rendre les données provenant d'un large éventail d'outils accessibles à un large éventail d'utilisateurs professionnels. Les mots clés sont ici la flexibilité et la compatibilité pour briser les silos de données, avec les caractéristiques suivantes :

    • Un système de gestion des jeux de permissions pour les données: la Data Fabric doit automatiser l'accès par l'utilisateur.
    • Approvisionnement automatisé: N'importe quel membre de l'organisation doit pouvoir demander l'accès à un jeu de données de la Data Fabric - via la création d'un ticket avec des capacités intégrées de gouvernance données.
    • Un outil d'exploration des données: La Data Fabric doit permettre aux utilisateurs d'explorer les données (et pas seulement les métadonnées) sans avoir à quitter la structure.

L'orchestration automatisée des données - telle qu'elle est décrite dans la partie supérieure de cette troisième couche du diagramme - fait référence aux éléments suivants DataOps. Il s'agit d'une pratique de gestion des données collaborative gestion des données visant à améliorer la communication, l'intégration et l'automatisation des flux de données entre les gestionnaires et les consommateurs de données au sein d'une organisation. Vous pouvez en savoir plus à ce sujet dans cet article.

Existe-t-il un outil unique pour la mise en œuvre d'une structure de données ?

Comme le souligne Gartner, il n'existe pas d'outil unique qui prenne en charge toutes les couches de la structure de manière exhaustive. En ce sens, aucun fournisseur n'est en mesure d'offrir une structure de données assimilable à une structure de données complète, aucun fournisseur n'est en mesure d'offrir une structure de données qui puisse être assimilée à une structure de données complète.. La solution réside dans l'interaction entre les différentes couches. Une plateforme ouverte est la clé, et les entreprises doivent s'équiper des meilleurs outils de données interconnectés pour obtenir une structure de données digne de ce nom. La construction d'une Data Fabric doit être considérée comme un marathon, et non comme un sprint, et doit être abordée par étapes - le catalogue de données étant la première.

Construire une structure de données avec Zeenea

Chez Zeenea, les entreprises qui ont adopté notre Smart catalogue de données ont déjà posé les bases de leur Data Fabric. En effet, outre l'identification, la collecte et l'analyse de toutes les sources de données ainsi que de tous les types de métadonnées (première couche), Zeenea offre toutes les fonctionnalités nécessaires à l'activation des métadonnées via son cœur - via un graphe de connaissances (deuxième couche). Enfin, notre catalogue s'adresse à la troisième couche : d'une part, via l'intégration de règles de gouvernance données ; d'autre part, via l'application Zeenea Explorer qui agit comme une véritable place de marché des données afin que chaque utilisateur professionnel puisse accéder facilement aux ensembles de données clés qui l'intéressent et ainsi créer rapidement de la valeur à partir des données disponibles.

Pour en savoir plus sur notre Smart catalogue de données, consultez nos deux eBooks ci-dessous ou contactez-nous:

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.