Non classé

Lac de données Hadoop : Est-ce la fin ?

trouver une abondance d'informations dans un lac de données

Qu'est-ce qu'un lac de données Hadoop ? Un lac de données Hadoop est un ensemble géré de clusters Hadoop. Un lac de données est un dépôt qui stocke les données dans leur format natif avec une fidélité totale. Les données sont généralement non structurées ou semi-structurées, y compris les objets JSON, les fichiers plats, les fichiers journaux, les images, les flux d'événements IoT et les weblogs.

Quelle technologie peut remplacer un lac de données Hadoop ?

La popularité d'Hadoop a incité les fournisseurs de cloud computing à proposer un large éventail de choix aux entreprises souhaitant moderniser leurs clusters de big data. Le système de fichiers distribués Hadoop (HDFS) et l'API Spark pour l'accès aux données Hadoop sont au cœur des distributions Hadoop. Étant donné que Spark a toujours pris en charge Amazon S3, il s'agit d'une première étape logique vers le nuage pour les clusters sur site . S3 est un magasin d'objets très élastique, moins coûteux et plus rapide qu'un cluster sur site .

Microsoft a développé HDInsight on Azure pour fournir une implémentation d'Apache Spark basée sur le cloud afin de faciliter la migration des travaux Spark existants.

La plateforme de données Actian prend en charge l'API Spark sur site et sur plusieurs clouds, ce qui vous permet d'accéder à des données semi-structurées stockées en dehors de la base de données relationnelle en colonnes intégrée à la plateforme.

Principales raisons d'envisager Actian dans les environnements Hadoop

  • Exécution de requête vectorisées : Exploite les capacités d'instruction unique, données multiples SIMD) des processeurs Intel x86, permettant le traitement de centaines ou de milliers de valeurs de données à l'aide d'une seule instruction.
  • Architecture MPP : Offre une évolutivité exceptionnelle sur les clusters Hadoop qui s'étendent à des milliers d'utilisateurs, des centaines de nœuds et des pétaoctets de données, avec une redondance des données intégrée et une protection des données à l'échelle du système.
  • Conformité totale à la norme ACID : Effectue des mises à jour de données avec une cohérence lecture multi-version, en maintenant l'intégrité des transactions.
  • Mises à jour des données en temps réel sans pénalité : Permet le calcul à l'instant même en utilisant des arbres de delta positionnels (PDT) brevetés pour de petites insertions, mises à jour et suppressions incrémentielles sans impact sur les performances de la requête .
  • Optimisation du cache duprocesseur : Utilise les cœurs et les caches dédiés du processeur comme mémoire d'exécution pour exécuter les requêtes 100 fois plus vite qu'à partir de la RAM, offrant ainsi un débit nettement supérieur à celui des approches conventionnelles in-memory
  • processeur Optimisations : Inclut des opérations basées sur des chaînes accélérées par le matériel pour accélérer les sélections sur des chaînes utilisant des caractères génériques, les agrégations sur des valeurs basées sur des chaînes, et les jointures ou les tris utilisant des clés de chaînes.
  • Stockage basé sur les colonnes : Réduit les E/S aux colonnes pertinentes et permet une meilleure compression des données, et permet aux index de stockage de maximiser l'efficacité.
  • Compression des données : Offre de multiples options pour maximiser la compression, de 4 à 10 fois pour le stockage Hadoop.
  • Index de stockage : Fournir des index min-max automatiques pour permettre de sauter rapidement des blocs lors de la lecture et éliminer la nécessité d'une stratégie explicite de partitionnement des données.
  • Exécution parallèle : Utilisez des algorithmes adaptatifs pour maximiser la simultanéité tout en permettant la priorisation de la charge.
  • Accès direct aux requête grâce à Spark : Fournit un accès direct aux fichiers de données Hadoop stockés dans Parquet, ORC et d'autres formats standard, ce qui permet aux utilisateurs de bénéficier d'avantages significatifs en termes de performances sans avoir à convertir d'abord le format de fichier Vector.
  • Support fonctionsutilisateur(UDF) : Étendre la base de données pour effectuer des opérations qui ne sont pas disponibles par le biais des fonctions intégrées et définies par le système fournies par Vector. Vector pour Hadoop 6 permet de créer des FDU scalaires.
  • Exécution plus rapide de l'apprentissage automatique : Déployez des modèles d'apprentissage automatique (ML) qui s'exécutent parallèlement à la base de données en tirant parti des nouvelles capacités UDF étendues. En déployant des modèles d'apprentissage automatique parallèlement à la base de données Vector, les mouvements de données sont réduits, ce qui permet d'accélérer l'analyse des données.
  • SQL et NoSQL dans une seule base de données : Combinez des colonnes relationnelles classiques avec des colonnes contenant des documents formatés en texte JSON dans la même table, et analysez et importez des documents JSON dans des structures relationnelles. Le rapprochement des données semi-structurées et des bases de données relationnelles permet de gérer des cas d'utilisation supplémentaires où les structures de données sous-jacentes changent rapidement.
  • Support étendue Support SQL Avec ANSI SQL standard et analytique avancée: Il s'agit notamment des fonctions de cubage, de regroupement et de fenêtre.

Vous pouvez en savoir plus sur les produits et solutions Actian en consultant notre site web et en essayant la plateforme de données Actian.

Mosaïque d'éléphants d'un lac de données Hadoop

Est-ce la fin du lac de données Hadoop ?

À l'apogée d'Hadoop, il y a plus de dix ans, l'idée d'un système de fichiers évolutif , hautement disponible et peu coûteux était très séduisante. De nombreux fournisseurs, dont Cloudera, Hortonworks et MapR, proposaient des distributions open-source qui ont favorisé l'adoption par les entreprises. Depuis, le marché s'est consolidé et les clusters Hadoop se sont étiolés en raison de la rareté des compétences, des coûts d'administration élevés et de l'émergence de meilleures alternatives. Les nouvelles solutions proposées par les fournisseurs de solutions en nuage offrent un meilleur coût par téraoctet et des frais d'administration moins élevés.

Vecteur dans Hadoop

Vector fournit une capacité de base de données de de haute performance directement dans Hadoop et utilise la structure de stockage sous-jacente HDFS pour les données. Vector in Hadoop prend en charge plusieurs distributions Hadoop, y compris Amazon Elastic MapReduce (EMR).

La performance est la principale raison d'exécuter Vector dans Hadoop, car plusieurs nœuds de cluster peuvent paralléliser des opérations telles que les requêtes SQL. De nombreuses entreprises ont fait évoluer leurs environnements big data Hadoop vers des lacs de données pour stocker des ensembles de données semi-structurées telles que des fichiers journaux d'activité web et des données IoT. Vector vous permet de multiplier par 100 les performances SQL d'Hadoop par rapport à Apache Impala. L'avantage termes de performances ne concerne pas seulement les requêtes. Vous pouvez également avantage de mises à jour de données en temps réel sans pénalité. Certaines bases de données analytiques Hadoop traditionnelles vous obligent à sacrifier la cohérence données au profit de la performance.Vector pour Hadoop traite les mises à jour de données en temps réel sans pénalité de performance associée, garantissant ainsi que la vision analytique d'une organisation est toujours à jour, en utilisant les données les plus fraîches disponibles.

Les lacs de données les plus récents commencent leur vie dans le nuage. La plateforme de données Actian complète parfaitement les lacs de données basés sur le cloud en exécutant des analyses de données là où se trouve votre lac de données.

La plateforme de données Actian et Vector dans Hadoop offrent des performances de traitement massivement parallèle (MPP). Grâce à son support natif innovant de Spark, Vector offre un accès optimisé aux formats de fichiers de données Hadoop, y compris Parquet et ORC, la possibilité d'exécuter des fonctions telles que les jointures SQL sur différents types de tables et sert de moteur d'exécution de requête plus rapide pour les applications Spark SQL et SparkR.

Visuel d'un éléphant représentant Vector dans Hadoop