Architecture des données

Le format de fichier Actian Vector for Hadoop est plus rapide et plus efficace

Actian Corporation

5 juin 2020

Vecteur pour l'éléphant hadoop

Dans cette troisième et dernière partie de la série sur Actian Vector in Hadoop (VectorH), nous verrons comment le format de fichier VectorH soutient la performance et l'efficacité de notre plateforme d'analyse données afin d'accélérer les perspectives commerciales, ainsi que certaines des autres fonctionnalités d'entreprise qui peuvent aider les entreprises à mettre en production leurs applications Hadoop. La première partie de cette série a montré les avantages considérables de VectorH en termes de performances par rapport à d'autres alternatives SQL sur Hadoop, tandis que la deuxième partie a exploré les avantages de l'implémentation plus riche de SQL et la possibilité d'effectuer des mises à jour de données dans VectorH.

Le format de fichier du VectorH est l'un des principaux facteurs qui contribuent à ses performances de pointe. L'orientation en colonnes permet à VectorH de choisir des techniques de compression optimisées par type de données, et VectorH peut utiliser diverses mesures décrites dans l'article SIGMOD pour utiliser plus efficacement la bande passante de stockage et d'E/S. Dans certains benchmarks simples décrits dans cet article, nous avons comparé VectorH à la vitesse et à l'efficacité d'autres moteurs de requête (comme Impala et Presto) et d'autres formats de fichiers (comme Parquet et ORC). Trois observations ressortent clairement des résultats des tests de référence :

VectorH traite les requêtes beaucoup plus rapidement que les autres alternatives lorsque les données sont déjà en mémoire, de 26x à plus de 110x plus vite, principalement en raison de l'efficacité de la décompression en utilisant le traitement vectorisé. Le graphique ci-dessous montre les temps de requête pour chacune des alternatives, en montrant comment ils varient en fonction du pourcentage des données sélectionnées sur l'ensemble des tables. VectorH et Presto évitent de traiter les données qui ne se trouvent pas dans la plage sélectionnée, tandis qu'Impala ne le fait pas et obtient de bien moins bons résultats dans les cas de 10 % et 30 %.
requête

  • VectorH est également beaucoup plus rapide lorsque les données n'ont pas encore été chargées en mémoire. Le VectorH réduit la quantité d'E/S requise pour les données résidant sur le disque en utilisant le filtrage des E/S, où les index MinMax en mémoire permettent d'ignorer les opérations de lecture pour les blocs sur le disque qui ne contiennent pas de données dans la plage sélectionnée. Le graphique ci-dessous (similaire au précédent) reflète le pourcentage de données dans la plage sélectionnée, et seul le VectorH montre des économies significatives en termes d'opérations de lecture, étant donné que moins de données correspondent aux critères de sélection. Bien que d'autres formats disposent également d'informations sur les plages, celles-ci sont stockées sous forme de métadonnées à l'intérieur des blocs de données. Chaque bloc doit toujours être lu au moins en partie avant de décider si les données sont pertinentes. VectorH a effectué beaucoup moins d'E/S, de 20 % à 98 % de moins, par rapport à Impala et Presto.

pourcentage de données dans la fourchette sélectionnée

  • VectorH a la compression la plus efficace pour une variété de types de données, nécessitant seulement 11 Go de stockage par rapport à 18 Go pour Parquet et 19 Go pour ORC, soit une économie de 39 à 42 %. Imaginez les économies réalisées sur un magasin de données de plusieurs pétaoctets !

VectorH-compression-à-travers-une-variété-de-types-de-données

Avantages supplémentaires pour VectorH qui contribuent au déploiement de solutions analytiques réussies :

  • L'intégration de Spark est un exemple de l'engagement continu d'Actian à incorporer des interfaces et des cadres ouverts directement dans la solution VectorH.
    • Actian VectorH 6.0 s'intègre aux dernières distributions Hadoop et peut être déployé à la fois sur site et dans le nuage, par exemple Microsoft Azure HDInsight.
    • Actian VectorH 6.0 supporte plusieurs systèmes de fichiers ainsi que plusieurs formats de donnéesParquet, ORC, CSV, et bien d'autres via le connecteur Spark).
    • Les utilisateurs peuvent exécuter des requêtes dans VectorH sur des données stockées dans n'importe quel format de fichier supporté par Spark en utilisant le connecteur Spark. Ceci est totalement transparent pour l'utilisateur: un SQL ANSI complet peut être utilisé pour requête données dans n'importe quel format de fichier sans même connaître l'existence de Spark.
    • Avec le connecteur Spark, les données stockées dans VectorH peuvent être traitées dans Spark grâce à l'utilisation de Dataframes ou de Spark SQL. Toute opération Spark peut être effectuée sur des données soutenues par une table VectorH.
  • Dans l'ensemble, Actian offre une fonctionnalité plus complète de niveau entreprise pour support passage des applications analytiques du développement à un environnement de production.
    • La sécurité basée sur les rôles et les lignes est intégrée dans VectorH, fournissant le contrôle d'accès nécessaire pour support politiques de confidentialité et les exigences réglementaires.
    • Actian Director est un outil Web qui permet de surveiller et de gérer les ressources de VectorH et des clusters.
    • Actian Management Console automatise le provisionnement, le déploiement et la surveillance des analyses dans le nuage, ce qui accélère et facilite le démarrage de votre nouveau projet.

Cette série de blogs en trois parties (voir les parties 1 et 2) montre comment Actian fournit à ses clients les performances, la flexibilité et le support nécessaires à l'intégration avec d'autres technologies big data pour fournir des informations plus rapides et plus riches afin de prendre de meilleures décisions commerciales.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.