L'analyse des lacs de données : Qu'est-ce que c'est et pourquoi est-ce important ?
Le traitement traditionnel des données est en train de devenir un processus de données hérité dans le contexte de la gestion de l'étendue sans cesse croissante des cas d'utilisation des données Big Data, Edge et en temps réel, qui sont de plus en plus critiques pour l'entreprise. Aujourd'hui, les technologies Big Data, cloud et edge computing ont transformé de nombreuses pratiques de gestion des données lentes, limitées et manuelles en pratiques de transformation numérique. La complexité de la gestion de grands volumes de données structurées, semi-structurées et non structurées doit continuer à être automatisée et simplifiée autant que possible. Les défis liés au Big Data sont là pour durer, et l'endroit où les données sont générées et traitées, ainsi que la vitesse à laquelle elles se développent, évoluent rapidement. Les organisations doivent adopter les capacités de Big Data et d'analyse des données, sous peine de devenir facultatives pour leurs clients.
Des technologies telles que les entrepôts de données et les lacs de données aident à gérer les Big Data. Les lacs de données sont passés de Hadoop et d'environnements propriétaires sur site à l'informatique dématérialisée, ce qui a permis de surmonter les limites des entrepôts de données et de collaborer avec eux pour obtenir une solution de meilleure qualité.
Azure for Data Analytics ou Azure Data Lake Analytics (ADLA) de Microsoft est une solution de lac de données qui fonctionne dans une architecture de traitement des données distribuée et basée sur le cloud pour aider les organisations à gérer leurs charges de travail Big Data. Que sont les données sans l'analyse ? Les données et l'analyse Azure constituent ensemble une solution gagnante pour les besoins d'support décision des organisations.
Qu'est-ce que l'analyse des lacs de données ?
Les données stockées dans un entrepôt de données sont conçues et adaptées à des fins spécifiques ; les données stockées dans les lacs de données sont adaptées à des fins indéfinies ou quelconques. Les entrepôts de données stockent des données traitées et affinées, tandis que les lacs de données stockent des données brutes, non traitées. L'analyse des entrepôts de données et l'analyse des lacs de données diffèrent en ce sens que les données sont déjà traitées dans un but spécifique à l'aide de l'analyse des entrepôts de données. Le lac de données est traité pour une utilisation particulière en tant que données d'entrée d'un entrepôt de données lors de l'utilisation de l'analyse du lac de données.
L'analyse des lacs de données est un concept qui existe depuis la création de Hadoop. Hadoop est une solution open-source pour le stockage et le traitement des données volumineuses (Big Data). Hadoop dispose d'un système de fichiers distribués (HDFS), d'un moyen de gérer, de surveiller les ressources et de planifier les tâches (YARN), d'un mappage de données pour les résultats de sortie et d'une bibliothèque Java standard pour support résultats des décisions relatives aux données nécessaires. Hadoop se compose de nombreux outils et applications pour collecter, stocker, traiter, analyser et gérer les Big Data. Hadoop et l'analyse des lacs de données sont des composants complémentaires des architectures de lacs de données. Hadoop est une plateforme permettant de construire des lacs de données. Bien qu'Hadoop soit une plateforme primaire pour les lacs de données, Hadoop pourrait être remplacé comme plateforme pour les lacs de données à l'avenir, au fur et à mesure que la technologie évolue.
Pensez à l'architecture en termes simples : Hadoop est la plateforme, un lac de données est construit sur la plateforme, l'analyse du lac de données extrait les données pour n'importe quel objectif, et un entrepôt de données peut être l'un de ces objectifs.
Les services analytiques Azure permettent d'accélérer analyse des données big data. L'analyse des lacs de données se composait initialement de trois éléments clés :
Un système de fichiers distribués - souvent appelé stockage d'objets ;
Des outils de traitement des données et d'analyse - dans le cas de Hadoop : Hive, Pig, Mahout et Impala fournissent un ensemble d'outils d'analyse ;
Et, pour la gestion globale de la plateforme d'analyse lac de données - avec Hadoop, YARN.
Contrairement à la plateforme d'analyseanalyse de lac de données Hadoop, qui a dominé à une époque mais qui est en train de disparaître, les trois autres principales plateformes analyse de lac de données sont des services de cloud public plutôt que des plateformes essentiellement sur site. Bien qu'Hadoop puisse actuellement être déployé dans le nuage, quiconque le fait n'est pas un nouveau venu et est contraint d'évaluer la possibilité de passer à des offres de nuage public - au moins pour les magasins d'objets sous-jacents suivants.
- Azure Data Lake Analytics (ADLA).
- Analyse des lacs de données d'Amazon Web Services (AWS).
- Google Data Lake Analytics (GDLA).
Dans tous les cas, il existe des ensembles équivalents de traitement des données, d'outils d'analyse et de systèmes sous-jacents de gestion des données . Pour Hadoop, il s'agit du système de fichiers Hadoop, HDFS, mais les équivalents dans le nuage sont :
- Stockage d'objets dans le nuage.
- Azure Data Lake Store (ADLS).
- AWS Simple Storage Service (S3).
- Google Cloud Store (GCS).
Dans de nombreux cas, vous pouvez toujours utiliser YARN, Hive, Pig et d'autres outils Hadoop sur ces magasins d'objets au lieu de HDFS. L'utilisation de la valeur des magasins d'objets doit être conçue, créée et fournie pour l'organisation et offre une excellente combinaison de standardisation du stockage de données sous-jacent tout en permettant la flexibilité d'utiliser une large gamme d'outils d'analyse de données.
L'analyse des lacs de données permet de découvrir et de créer des relations, de répondre à des questions commerciales, d'illustrer de nouvelles innovations dans les domaines de la science et de l'ingénierie, de prédire des résultats, d'automatiser et de faciliter la prise de décisions. Une signification factuelle est donnée aux données, quelle qu'en soit la source, puis des informations et des connaissances sont découvertes dans le but d'améliorer la capacité de l'organisation à prendre des décisions rapides et opportunes pour support ses activités auprès de ses clients. Dans l'ensemble, l'analyse des données, en particulier l'analyse des données big data et l'edge computing, sont des facteurs et des capacités essentiels dont les organisations doivent tirer parti aujourd'hui. Les données permettent de prendre des décisions automatisées et humaines de manière plus efficace et plus précise.
Créer de la valeur avec les plateformes Big Data
Les technologies Big Data permettent d'extraire, d'analyser, de transformer et de charger de grandes quantités de données qui sont trop volumineuses pour les logiciels d'application de traitement des données traditionnels, à des fins d'support décision statistique au sein d'une organisation. Ces données extraites de diverses sources sont utilisées pour comprendre les conditions du marché, les réseaux sociaux , améliorer l'acquisition et la fidélisation des clients, donner des aperçus historiques et d'autres utilisations pour l'informatique décisionnelle globale. Plus les données sont collectées et transformées en vue de la prise de décision, plus elles ont de valeur pour l'organisation.
Mais ce qui fait la valeur de chacune des plateformes AWS, ADLS, GCS, c'est la possibilité d'utiliser les outils d'intégration, de gestion et d'analyse des données d'Azure, d'AWS et de Google, ainsi que les offres équivalentes de tiers attirées vers les plateformes par la gravité des trois grands fournisseurs de services dans le nuage.
Ce qui manque à ces plateformes , c'est la possibilité d'acheter un service d'analyse de lac de données virtuel qui couvre plusieurs fournisseurs de cloud et environnements sur site. En outre, même pour chaque fournisseur de services d'analyse de lac de données en nuage, l'accent mis sur le fait de laisser les données brutes dans leur état naturel jusqu'à ce qu'un groupe et un projet spécifiques souhaitent les utiliser, associé à la nature technique des groupes utilisant les services d'analyse de lac de données, a rendu obsolète la fonctionnalité d'intégration au sein de ces plateformes. Ce défi peut être relevé grâce à des architectures intégrées qui alimentent les entrepôts de données de l'entreprise à des fins spécifiques.
Avec l'intégration du Machine Learning (ML), de l'Intelligence Artificielle (AI) et de l'informatique décisionnelle (BI) dans une solution globale de plateforme Big Data, les capacités et les nécessités d'Azure analyse des données big data deviennent plus apparentes et plus puissantes pour l'organisation. Pour créer et réaliser de la valeur, il faut d'abord garder à l'esprit l'objectif final de la solution élaborée à l'aide des technologies Big Data.
Principales fonctionnalités d'Azure Data Lake Analytics
Les lacs de données disposent de capacités clés pour l'extraction de données à partir de diverses sources, le stockage de grandes quantités de données, la transformation des données, la sécurité et la gouvernance, les services analytiques et les outils d'analyse des lacs de données. L'architecture analytique des lacs de données Azure présente les avantages suivants :
- Compatibilité avec HDFS et optimisation des performances et du débit.
- Taille illimitée des données - Binary Large Object storage (BLOB) pour les données textuelles et binaires.
- Tolérance aux pannes, réponse rapide aux défaillances du système.
- Haute disponibilité et reprise après sinistre.
- Mise en œuvre de Hadoop dans le nuage.
- Intégration avec Azure data lake analytics active directory pour les besoins d'accès basés sur les rôles.
- support HIVE et Spark.
Ajoutez les capacités d'analyse du lac de données Microsoft Azure, notamment en introduisant U-SQL. U-SQL, créé par Microsoft principalement pour Azure, est un langage de requête et de traitement des big data qui combine la construction et les capacités de SQL et de C#. Il s'agit d'un langage simple à utiliser qui comprend des types et des expressions riches. En plus de travailler sur des données non structurées, U-SQL fournit un catalogue général de métadonnées sous la forme d'une base de données relationnelle. Le métacatalogue U-SQL fonctionne comme HIVE et prend en charge les schémas de base de données, les tables, les index, les vues, les fonctions, les procédures et les assemblages .Net. Outre U-SQL, R, .Net et Python sont également pris en charge par Azure data lake analytics.
En plus de la puissance de U-SQL, Microsoft data lake analytics, d'autres capacités clés sont disponibles :
- Développements plus rapides grâce à U-SQL.
- Compatibilité avec toutes les données Azure.
- Le rapport coût-efficacité.
- Mise à l'échelle dynamique.
- Optimisation intelligente.
Les capacités de Microsoft Azure data lake analytics comprennent également des services complémentaires tels que :
- Cosmos DB - Service de base de données NoSQL multi-modale.
- Azure SQL Data Warehouse - Entrepôt de données d'entreprise en nuage Azure SQL database - Service de base de données relationnelle géré.
- Azure Data Factory - Service d'extraction/récupération, de transformation, de chargement/sortie (ELT) et d'intégration de données.
- Azure Analysis Services - Moteur d'analyse géré pour l'élaboration de modèles.
La capacité des organisations à réussir dépend de leurs actifs et des capacités de ces actifs. Les organisations doivent acquérir la capacité de gérer leurs Big Data puis de transformer les connaissances en une capacité stratégique. Les capacités énumérées dans Azure data lake analytics peuvent être activées de manière unique au sein d'une organisation pour créer un avantage concurrentiel. Amazon et Google proposent des architectures et des fonctionnalités analogues, ainsi qu'un ensemble varié d'offres tierces permettant de créer des écosystèmes étendus pour les Big Data modernes et les cas d'usages analytiques. Les organisations devraient évaluer leurs forces, faiblesses, opportunités et menaces (SWOT) et développer un plan stratégique, tactique et opérationnel pour réussir avec les capacités et les compétences du Big Data.
Conclusion
De nombreuses organisations éprouvent des difficultés à comprendre les besoins de leurs clients. Elles ont recours aux avis d'experts de leurs employés, à des enquêtes et à d'autres moyens. Aujourd'hui, l'un des moyens les plus efficaces consiste à utiliser des données provenant de toutes les sources possibles pour analyser n'importe quel processus d'entreprise afin que n'importe quel membre de l'organisation puisse prendre des décisions efficaces, efficientes et économiquement exploitables. Les engagements omnicanaux et la collecte de données provenant de toutes les sources doivent être analysés. L'analyse des données Azure et les technologies qui l'accompagnent peuvent aider à résoudre cette tâche complexe qui consiste à utiliser les Big Data et les experts de l'organisation pour prendre de meilleures décisions concernant les clients.
Récemment, l'initiative Apache visant à construire un lac delta qui s'étend sur plusieurs lacs de données a fait l'objet d'une attention particulière. Étant donné que cette initiative s'appuie sur Spark, elle a également ajouté la capacité de gérer l'analyse de données streaming , et pas seulement l'analyse par lots. C'est l'approche adoptée par Databricks avec son lac delta.
La réponse équivalente au manque de fonctionnalité des plateformes analyse de données actuelles consiste à faire de l'entrepôt de données cloud une meilleure destination en aval pour l'analyse de données qui effectue l'analyse de données au sein du lac de données.
Telle a été l'approche des entrepôts de données en nuage de fournisseurs comme Actian qui s'intègrent à leurs produits d'intégration de données pour créer un schéma flexible àà la volée en amont de leur entrepôt de données cloud. Cela revient à faire la même chose qu'un lac delta mais en se concentrant sur les cas d'usages analytiques opérationnels pour l'analyse des lacs de données par rapport à des cas de projets de recherche en amont des charges de travail et des processus d'entreprise quotidiens.
La plateforme de données Actian peut aider les organisations avec une architecture basée sur les résultats pour extraire la puissance de l'analyse des lacs de données pour l'support la décision organisationnelle en temps opportun.