Non classé

La maison des données (Data Lakehouse)

Deux collègues collaborant sur un ordinateur portable, démontrant l'efficacité d'un lac de données pour le stockage unifié des données et l'analyse dans un espace de travail moderne.

Un data lakehouse combine le dépôt stockage de données pour la fonction de données brutes d'un data lake avec un entrepôt de données intégré pour le traitement analytique. Ces deux entités sont considérées comme distinctes, mais le data lakehouse combine les deux systèmes en utilisant des métadonnées et un catalogue de données pour décrire les ensembles de données et leurs interrelations.

Pourquoi le Data Lakehouse est-il important ?

Avant l'émergence de l'architecture data lakehouse, les data lakes et les data warehouses existaient dans des silos séparés, les données devaient être déplacées et transformées des data lakes vers les data warehouses en utilisant des pipelines de données parfois complexes. Les utilisateurs avaient du mal à trouver les données dont ils avaient besoin, ce qui entraînait une sous-utilisation des entrepôts de données et des lacs de données qui les alimentaient. L'intégration du dépôt données brutes et de l'entrepôt de données dans un lac de données unifié augmente l'utilisation des données, ce qui permet à l'entreprise d'accroître considérablement la valeur de ses actifs de données.

Le data lakehouse est une réponse aux lacs de données, qui sont souvent négligés et oubliés, se transformant en marécages de données. De nombreuses organisations ont créé des lacs de données Hadoop à leur apogée, avant de perdre des administrateurs compétents lorsque l'engouement pour le concept s'est estompé, ce qui a entraîné leur disparition.

Quelles sont les composantes d'un Data Lakehouse ?

Stockage

Un data lakehouse est un dépôt données structurées stockées dans un entrepôt de données sous forme de tableaux et de formats de données semi-structurés tels que les chaînes JSON. Les fichiers plats stockent des données non structurées telles que des vidéos, des fichiers audio et des documents texte stockés dans des systèmes de fichiers. Il peut s'agir de systèmes de fichiers traditionnels sur site ou de magasins de fichiers en nuage tels que AWS S3.

Le catalogue de données

Le catalogue de données stocke des métadonnées qui décrivent le format des données, le lignage des étiquettes, etc. Le catalogue aide les utilisateurs à trouver les données dont ils ont besoin, grâce à des descriptions consultables.

Connecteurs de données

Les connecteurs de données permettent d'accéder à tous les types de données dans le lac de données. Les connecteurs tels que Spark peuvent accéder à plusieurs formats de données à l'aide d'une interface standard.

Interfaces de programmation d'applications - API

Les applications, les utilitaires et les outils d'informatique décisionnelle (BI) utilisent des API pour accéder aux données de la base de données.

Consommateurs de Data Lakehouse

Grâce à la qualité des métadonnées contenues dans le data lakehouse, les citoyens analystes de données peuvent facilement exécuter des requêtes BI pour générer des rapports et alimenter des tableaux de bord visuels. Les données sont plus faciles à trouver et à charger dans l'entrepôt de données pour l'analyse. Les données connexes sont liées afin qu'ils puissent les explorer sans l'aide de professionnels des données.

Contrôles de l'intégrité des données

Les données dignes de confiance peuvent être exclues de l'entrepôt de données ou signalées comme étant de faible qualité dans la description des métadonnées . Les contrôles d'intégrité référentielle dans l'entrepôt de données qui appliquent les contraintes des clés primaires et étrangères contribuent à maintenir la cohérence des relations entre les données. Les données contenues dans les systèmes de fichiers peuvent être analysées pour détecter les corruptions de données logiques qui peuvent s'y glisser.

Data gouvernance

Le concept de data lakehouse soutient les initiatives de gouvernance données en indiquant qui est responsable des données, en contrôlant la qualité et la fraîcheur des données et en évaluant leur degré d'autorité. La gouvernance proactive gouvernance données permet à l'organisation de contrôler la prolifération des données en concentrant les utilisateurs sur des données fiables.

Qualité des données

Des données de mauvaise qualité sont pires que l'absence de données, car elles peuvent donner des indications trompeuses. Les données de haute qualité ne présentent pas de lacunes, utilisent des formats uniformes et sont vérifiées. Le maintien de la qualité des données est une exigence fondamentale pour un responsable des données.

Avantages d'un Data Lakehouse

Le concept de data lakehouse gagne en popularité pour plusieurs des raisons ci-dessous :

  • Des données bien documentées et faciles à trouver sont plus susceptibles d'être utilisées pour l'analyse et la prise de décision.
  • En plaçant les données dans un lac de données, les utilisateurs peuvent leur faire confiance.
  • Les relations entre les différents ensembles de données sont précisées dans un entrepôt de données, ce qui augmente les chances de les consommer.
  • Conformité, gouvernance données et gestion des données sont appliquées, ce qui renforce la confiance et réduit les risques.
  • Une sécurité accrue peut être mise en œuvre en utilisant des contrôles d'accès basés sur les rôles et l'authentification des utilisateurs de la base de données.
  • Les coûts d'administration sont moins élevés pour un dépôt unifié unique que pour de multiples entrepôts de données distribués en silo .
  • Le lac de données favorise l'analyse libre-service car les données sont décrites et cataloguées.
  • L'accès à l'API rend le lac de données accessible aux modèles d'apprentissage automatique.

À propos de la plateforme de données Actian

La plateforme de données Actian permet de gérer et d'analyser les données sur site et sur plusieurs plateformes cloud public.