Non classé

Qu'est-ce que le stockage en lac de données ?

trouver une abondance d'informations dans un lac de données

Qu'est-ce que le stockage dans un lac de données et pourquoi est-ce important ? Un lac de données est un dépôt construit par les services informatiques d'organisations privées ou des fournisseurs de cloud public pour le stockage, le traitement et la maintenance de données dans n'importe quel format et à partir de n'importe quelle source, comme la vidéo, les flux d'actualités, vos applications, le web scraping, l'IoT, les data marts, les entrepôts de données ou les appareils mobiles. En 2010, James Dixon, alors directeur technique de Pentaho, a opposé les data marts et les data lakes. Les data marts ou entrepôts de données stockaient et permettaient d'analyser les données sur la base d'attributs de schéma connus. En revanche, un lac de données permet d'interroger les données sur la base de n'importe quel détail contenu dans les données acquises. Le stockage dans un lac de données vous permet de stocker la plupart des types et tailles de données et de rechercher ensuite quelque chose sans être sûr de ce que votre recherche trouvera ni du format exact des données.

Stockage de lac de données dans une architecture de données moderne

La conception et la gestion du stockage des données ont toujours été l'aspect le plus coûteux et le plus difficile des technologies de l'information. Avec l'augmentation de la variété des types et des sources de données, notamment du fait que la plupart des organisations présentent leurs services sous forme numérique sur l'internet, cette complexité a conduit à la modernisation de l'architecture des données (personnes, processus et outils). Il y a quelques années, toutes les données devaient correspondre à un schéma rigide et étaient donc très structurées, alors qu'aujourd'hui, les données sont semi-structurées ou non structurées et donc souvent non formatées.

Il y a vingt-cinq ans, le stockage de 1 To de données nécessitait trois grands racks de disques, chacun de la taille d'une petite machine à laver. Aujourd'hui, le stockage en lac de données permet de disposer de pétaoctets de données, soit physiquement dans un petit boîtier de bureau, soit plus probablement virtualisées dans le nuage. Bonne nouvelle ou cauchemar en matière de sécurité et de gestion ? Quelles informations l'organisation souhaite-t-elle extraire de ses données stockées lorsqu'elles sont analysées ? Les informations contenues dans ces données stockées aident les entreprises à offrir à leurs clients des produits exceptionnels, mais il est essentiel de comprendre quelles sont les données dont dispose l'organisation, comment, où et quand elles ont été acquises, et qui peut y accéder, pour que l'architecture soit efficace.

Les meilleures pratiques pour une architecture moderne de stockage de lac de données sont les suivantes :

  • Sachez ce que vous avez en utilisant une combinaison de catalogues (pensez au système de cartes de bibliothèque) avec chaque enregistrement composé de métadonnées définissant rapidement chaque élément de données dans le lac, sa source, sa date d'acquisition et d'autres attributs pour simplifier les requêtes de données et l'archivage.
  • Logiciel d'audit et gouvernance active de ce que vous possédez, de la raison pour laquelle vous le possédez, de la légalité de la manière dont vous l'avez obtenu ou reçu, des personnes qui l'utilisent et de la date à laquelle vous pouvez l'effacer.
  • Les listes de contrôle d'accès (ACL) et autres pratiques de sécurité sont conçues et régies pour chaque lac de données (voir la section sur le stockage des lacs de données Microsoft Azure pour plus d'informations).
  • Les lacs de données en nuage chiffrent les données dans le cadre de leur admission initiale. Les compétences requises pour utiliser ces informations ou les transférer dans un état crypté nécessitent des compétences logicielles spécialisées et des modifications des applications et de la conception des services. Non seulement pour les propriétaires du lac de données, mais aussi pour tout partenaire ou client qui partage des informations et des jetons de sécurité. L'endroit où les jetons seront stockés et qui y aura accès est une priorité de conception de l'architecture de stockage du lac de données moderne.

Quelle est la différence entre un lac de données et un entrepôt de données ?

Le stockage en entrepôt de données était la première stratégie de stockage où l'on savait ce que l'on avait, à quoi il ressemblait et quelles données spécifiques chaque application, base de données, datamart et autres systèmes sources lui fournissaient ou devaient en extraire. Les entrepôts de données étant axés sur l'agrégation de données structurées provenant de bases de données opérationnelles départementales, ils étaient également très structurés. Bien qu'ils puissent être un ou deux ordres de grandeur plus grands que la plus grande base de données dont ils tirent des données, même la taille des jeu de données agrégés ne dépassait pas quelques dizaines de téraoctets, voire pas du tout. Au fil du temps, avec l'apparition de nouveaux types de données nécessitant une agrégation historique, de flux de clics sur le web, de documents archivés, de données de vidéosurveillance et d'autres types et sources de données, les entrepôts de données se sont révélés mal adaptés, car ils ne pouvaient pas absorber la taille massive des données associées à ces sources de données non traditionnelles. En outre, les fonctions des autres référentiels de données départementaux étaient trop étroitement définies : les systèmes de gestion des documents ne fonctionnaient que pour les documents, les systèmes de vidéosurveillance que pour le stockage des vidéos, et ainsi de suite. La recherche d'un dépôt données centralisé mais à multiples facettes qui ne manquerait pas d'espace de stockage a conduit à l'introduction du stockage virtuel (VMWare, NetApp, etc.) et a facilité la création d'options de stockage de données en nuage et de lacs de données.

Pour comprendre les lacs de données, il faut remonter à 1992, lorsque Ralph Kimball et Bill Inmon ont inventé le terme d'entrepôt de données pour décrire les règles et les schémas qui allaient régir les conceptions d'architecture d'entrepôt de données pendant les décennies à venir.

La définition d'un entrepôt de données donnée par Wikipedia met en évidence son utilisation et ses faiblesses : "des dépôts centraux de données intégrées provenant d'une ou de plusieurs sources disparates. Ils stockent des données actuelles et historiques et sont utilisés pour créer des rapports sur les tendances à l'intention des cadres supérieurs, tels que des comparaisons annuelles et trimestrielles".

Le tableau suivant met en évidence les principales différences entre le stockage en entrepôt de données et le stockage en lac de données :

Attributs Entrepôt de données Lac de données
Caractéristiques des données
  • Systèmes transactionnels relationnels, bases de données opérationnelles et applications de gestion.
  • Toutes les sources sont connues avant d'être placées dans l'entrepôt
  • A utiliser de préférence pour les données contenant des informations d'identification personnelle (PII)
 

  • Prise en charge des données non relationnelles et relationnelles provenant d'appareils IoT, de sites web, d'applications mobiles, de réseaux sociaux et d'applications d'entreprise.
  • Toutes les données sont acceptées si elles peuvent passer la sécurité pour entrer dans le lac.
  • Pas de support des données transactionnelles par rapport à un entrepôt
Utilisation des données Rapports, gestion des transactions, informatique décisionnelle, tableaux de bord Analyse et modélisation, intelligence artificielle, profilage
Coût, rapidité, fiabilité Résultats des requête les plus rapides en utilisant un stockage plus coûteux Le lac peut devenir un marécage s'il n'est pas correctement géré, ce qui réduit les capacités de performance.
Qualité des données Des données hautement conservées qui servent de version centrale de la vérité Toutes les données qui peuvent ou non être conservées (c.-à-d. les données brutes).
Utilisateurs de données Analystes d'entreprise, utilisateurs de lignes de métier Scientifiques des données, développeurs de données et analystes commerciaux (utilisant des données cataloguées)
Compétences nécessaires pour utiliser les données Ingénieurs de données pour l'architecture, la mise en place de l'EDW, la gestion continue, administrateurs de bases de données pour la création de scripts, la gestion des utilisateurs, la configuration, l'ajustement. Ingénieurs de données pour l'architecture, la mise en place du lac, la gestion continue, développeurs, analystes de données et modélisateurs nécessaires pour profiler, traiter et analyser les données.
Défis Difficile de modifier les schémas ou les rapports sans changer la structure de l'entrepôt de données  

  • Il peut devenir un marécage de données lorsque vous acceptez des choses dont vous n'avez pas besoin.
  • Plus difficile à sécuriser.
  • Complexe, son utilisation nécessite une support technique importante
  • Il est plus facile d'enfreindre les règles réglementaires

En réalité, vous aurez besoin et utiliserez à la fois des entrepôts de données et des lacs de données. Les requêtes standard, rapides et reproductibles à partir d'un jeu de données connu et bien définiavantage des capacités d'un entrepôt de données. L'analyse et la modélisation, lorsque les sources de données sont disparates, nécessiteront un lac de données. En 2017, Aberdeen a réalisé une étude qui a montré que les entreprises qui utilisaient des lacs de données dépassaient leurs concurrents de 9 %. La création et l'utilisation de lacs de données comportent des mises en garde, mais les avantages l'emportent sur les risques.

plateforme de données Actian est conçu pour offrir des performances élevées et une grande évolutivité dans toutes les dimensions - volume de données, utilisateur simultanés et complexité des requête .

Microsoft Azure Data Lake Storage

Microsoft Azure data lake storage Gen1 (ADLS Gen1) a été la réponse à des clients qui avaient besoin d'un moyen de stocker des informations dans une variété de formats à des fins analytiques. ADLS Gen1 fournit :

  • Stockage élastique, évolutif .
  • Azure HDInsight fournit des clusters Apache Hadoop, Spark, HBase et Storm.
  • Résilience intégrée (bien qu'Azure Data lake Gen1 n'offre pas la même résilience qu'Azure Blob storage ou d'autres options de stockage de données Azure).
  • Aucune limite sur le type de données placées dans le stockage du lac de données Azure.
  • Stockage crypté de la clé principale ou de la clé de bloc de données dans le coffre-fort de la clé principale d'ADLS.
  • Intégration facile avec la plupart des autres offres Azure.
  • Logiciel d'analyse basé sur Apache YARN avec une puissance de traitement à la demande.
  • Services de fichiers Azure Active Directory intégrés prenant en charge OAuth 2.0, l'authentification multifactorielle, les listes de contrôle d'accès, les listes d'accès basées sur les rôles et POSIX.
  • Gestion automatisée des événements pour déclencher des analyses ou d'autres activités programmatiques.

Le stockage dans le lac de données Microsoft Azure n'entraîne pas de coûts initiaux, mais vous permet de payer moins cher que vous ne le feriez habituellement pour de grandes quantités de stockage tout en réduisant les coûts de transaction, de lecture et d'écriture, de ces données. L'ADLS est une approche "pay-as-you-go", mais compte tenu de cette flexibilité, elle doit être surveillée pour contrôler les coûts par rapport aux avantages des ADL.

Microsoft Azure Data Lake Storage Gen2

Au début de l'année 2019, Microsoft a publié Azure data lake storage Gen2 (ADLs gen2) avec un stockage illimité lié à un puissant logiciel analytique capable d'exécuter des recherches en parallèle quel que soit le type de données. ADLs gen2 est particulièrement utile pour analyser des fichiers BLOB (Binary Large Object) ou vidéo combinés à d'autres types de données. Azure data lake storage Gen2 possède toutes les caractéristiques d'ADLS Gen1 plus :

  • Azure Active Directory (AAD).
  • Système de fichiers hiérarchiques (HFS) pour regrouper les fichiers dans n'importe quel système d'exploitation.
  • Stockage géo-redondant à accès en lecture pour améliorer la continuité des activités.
  • Niveaux BLOB de stockage à chaud, à froid et d'archivage pour répondre aux exigences de continuité de l'activité.
  • Réduction des coûts de stockage jusqu'à 50 % par rapport à ADLS Gen1 ou Azure Blob.
  • Simplifier la transition de ADLS Gen1 à Adls gen2 en permettant une commutation à partir d'un menu de contrôle Adls gen2.
  • Augmentation considérable des performances des requête et des chargements de données grâce à l'utilisation de métadonnées pour suivre chaque instance et attribut d'information (pensez à la façon dont la recherche d'un livre dans une bibliothèque a été facilitée par l'automatisation des catalogues de livres).
  • Sécuriser les données au niveau des répertoires et des fichiers en les rendant conformes aux normes POSIX ou via des listes de contrôle d'accès, un accès basé sur les rôles (RBAC) et d'autres méthodes fondées sur les meilleures pratiques.
  • Cryptage intégré pour les données au repos ou en transit liées aux clés gérées par le client ou à celles conservées dans Microsoft Key Vault.

Planification pour Microsoft Azure Data Lake Storage Gen2

Il existe de nombreuses méthodes d'acquisition et d'ingestion des données et une grande variété d'utilisations au service d'une communauté mondiale de clients. Le défi consiste à ne maintenir qu'un seul lac de données pour répondre à toute demande analytique ou à créer un environnement de stockage de lacs de données multiples.

Le coût des ADLs gen2 est une combinaison de coûts de stockage et de transaction. Des conseils peuvent être trouvés ici ou en demandant au support technique de Microsoft Azure. De nombreux services Azure tels que Azure Stream Analytics, IoT Hub, Power BI et Azure Data Factory font désormais partie d'Azure data lake storage Gen2.

La sécurité des données est primordiale, et ADLs gen2 est conforme à la norme ISO et prend en charge la plupart des pare-feu ou des configurations de réseau, comme le montrent les documents d'orientation de Microsoft. Une autre bonne pratique cruciale en matière gestion des données consiste à s'assurer que les données sont accessibles, quel que soit l'événement de continuité. Les données stockées dans ADLs gen2 sont répliquées trois fois, et la résilience peut être améliorée en choisissant les options suivantes, comme le montre la page web de Microsoft sur la redondance du stockage Azure:

  • Stockage à redondance locale (LRS).
  • Stockage redondant par zone (ZRS).
  • Stockage géo-redondant (GRS).
  • Stockage géo-redondant à accès en lecture (RA-GRS).

Stockage des lacs de données Google et AWS

Bien que cet article se concentre sur Azure, Google et AWS offrent d'excellentes alternatives.

Google Cloud data lake offre une solution évolutif basée sur Google Cloud Storage. Il existe deux services d'ingestion de données : Dataflow pour le transfert et l'approvisionnement automatisés des données et

Cloud Data Fusion gère entièrement votre ingestion de données et votre gouvernance. Pour faciliter l'analyse rapide, le data lake de Google utilise Dataproc pour moderniser l'architecture des données, l'ETL, et des produits open-source sur Apache Spark. Le principal outil d'analyse est BigQuery pour l'apprentissage automatique (ML) ou la recherche de pétaoctets de données via ANSI SQL.

Les offres de stockage de lac de données d'AWS, similaires à celles de Google et de Microsoft Azure, comprennent des services gérés et diverses options de stockage en nuage et d'outils analytiques. Amazon S3 (S3 signifie Simple Storage Service) fournit le dépôt stockage élastique de base pour Amazon Data Lake Storage et est largement utilisé comme dépôt données Cloud externe, non seulement pour Amazon Data Lakes, mais aussi pour la plupart des entrepôt de données cloud en tant que plateforme de stockage et d'ingestion de données. En utilisant une approche par console, les utilisateurs peuvent construire des lacs de données à la volée en intégrant des données provenant de plusieurs sources dans un emplacement cloud S3. AWS data lake prend entièrement en charge AWS Lambda. Les lacs de données nécessitent un moteur de recherche puissant pour trouver des informations, ce qui est réalisé via Amazon OpenSearch Service. Le système de sécurité, d'authentification et de gestion de la gouvernance est exécuté par Amazon Cognito. La transformation et l'analyse des données sont effectuées par Amazon Glue et Amazon Athena.

Les entrepôts de données ont pour fonction la gestion des données rapide, en colonnes ou comprise, gestion des données et la recherche. Les lacs de données sont des options de stockage en nuage pour diverses données, y compris les entrepôts de données, qui sont marquées pour faciliter la gestion avec des métabalises. Le choix d'un lac de données n'est malheureusement pas évident et dépend des besoins de votre organisation. Les meilleures pratiques suggèrent de piloter les alternatives ou d'effectuer une série d'exemples de scénarios d'utilisation pour s'assurer que la solution répond à vos besoins numériques et analytiques.

Actian est une plateforme de données entièrement géré

Elle est conçue pour offrir des performances élevées et une grande évolutivité dans toutes les dimensions - volume de données, utilisateur simultanés et complexité des requête - pour une fraction du coût des solutions alternatives. plateforme de données Actian peut être déployée sur sur site ainsi que sur plusieurs clouds, y compris AWS, Azure et Google Cloud, ce qui vous permet de migrer ou de décharger les applications et les données vers le cloud à votre propre rythme.