Le format de fichier Actian Vector for Hadoop est plus rapide et plus efficace
Actian Corporation
5 juin 2020

Dans cette troisième et dernière partie de la série sur Actian Vector in Hadoop (VectorH), nous verrons comment le format de fichier VectorH soutient la performance et l'efficacité de notre plateforme d'analyse données afin d'accélérer les perspectives commerciales, ainsi que certaines des autres fonctionnalités d'entreprise qui peuvent aider les entreprises à mettre en production leurs applications Hadoop. La première partie de cette série a montré les avantages considérables de VectorH en termes de performances par rapport à d'autres alternatives SQL sur Hadoop, tandis que la deuxième partie a exploré les avantages de l'implémentation plus riche de SQL et la possibilité d'effectuer des mises à jour de données dans VectorH.
Le format de fichier du VectorH est l'un des principaux facteurs qui contribuent à ses performances de pointe. L'orientation en colonnes permet à VectorH de choisir des techniques de compression optimisées par type de données, et VectorH peut utiliser diverses mesures décrites dans l'article SIGMOD pour utiliser plus efficacement la bande passante de stockage et d'E/S. Dans certains benchmarks simples décrits dans cet article, nous avons comparé VectorH à la vitesse et à l'efficacité d'autres moteurs de requête (comme Impala et Presto) et d'autres formats de fichiers (comme Parquet et ORC). Trois observations ressortent clairement des résultats des tests de référence :
VectorH traite les requêtes beaucoup plus rapidement que les autres alternatives lorsque les données sont déjà en mémoire, de 26x à plus de 110x plus vite, principalement en raison de l'efficacité de la décompression en utilisant le traitement vectorisé. Le graphique ci-dessous montre les temps de requête pour chacune des alternatives, en montrant comment ils varient en fonction du pourcentage des données sélectionnées sur l'ensemble des tables. VectorH et Presto évitent de traiter les données qui ne se trouvent pas dans la plage sélectionnée, tandis qu'Impala ne le fait pas et obtient de bien moins bons résultats dans les cas de 10 % et 30 %.
- VectorH est également beaucoup plus rapide lorsque les données n'ont pas encore été chargées en mémoire. Le VectorH réduit la quantité d'E/S requise pour les données résidant sur le disque en utilisant le filtrage des E/S, où les index MinMax en mémoire permettent d'ignorer les opérations de lecture pour les blocs sur le disque qui ne contiennent pas de données dans la plage sélectionnée. Le graphique ci-dessous (similaire au précédent) reflète le pourcentage de données dans la plage sélectionnée, et seul le VectorH montre des économies significatives en termes d'opérations de lecture, étant donné que moins de données correspondent aux critères de sélection. Bien que d'autres formats disposent également d'informations sur les plages, celles-ci sont stockées sous forme de métadonnées à l'intérieur des blocs de données. Chaque bloc doit toujours être lu au moins en partie avant de décider si les données sont pertinentes. VectorH a effectué beaucoup moins d'E/S, de 20 % à 98 % de moins, par rapport à Impala et Presto.
- VectorH a la compression la plus efficace pour une variété de types de données, nécessitant seulement 11 Go de stockage par rapport à 18 Go pour Parquet et 19 Go pour ORC, soit une économie de 39 à 42 %. Imaginez les économies réalisées sur un magasin de données de plusieurs pétaoctets !
Avantages supplémentaires pour VectorH qui contribuent au déploiement de solutions analytiques réussies :
- L'intégration de Spark est un exemple de l'engagement continu d'Actian à incorporer des interfaces et des cadres ouverts directement dans la solution VectorH.
- Actian VectorH 6.0 s'intègre aux dernières distributions Hadoop et peut être déployé à la fois sur site et dans le nuage, par exemple Microsoft Azure HDInsight.
- Actian VectorH 6.0 supporte plusieurs systèmes de fichiers ainsi que plusieurs formats de donnéesParquet, ORC, CSV, et bien d'autres via le connecteur Spark).
- Les utilisateurs peuvent exécuter des requêtes dans VectorH sur des données stockées dans n'importe quel format de fichier supporté par Spark en utilisant le connecteur Spark. Ceci est totalement transparent pour l'utilisateur: un SQL ANSI complet peut être utilisé pour requête données dans n'importe quel format de fichier sans même connaître l'existence de Spark.
- Avec le connecteur Spark, les données stockées dans VectorH peuvent être traitées dans Spark grâce à l'utilisation de Dataframes ou de Spark SQL. Toute opération Spark peut être effectuée sur des données soutenues par une table VectorH.
- Dans l'ensemble, Actian offre une fonctionnalité plus complète de niveau entreprise pour support passage des applications analytiques du développement à un environnement de production.
- La sécurité basée sur les rôles et les lignes est intégrée dans VectorH, fournissant le contrôle d'accès nécessaire pour support politiques de confidentialité et les exigences réglementaires.
- Actian Director est un outil Web qui permet de surveiller et de gérer les ressources de VectorH et des clusters.
- Actian Management Console automatise le provisionnement, le déploiement et la surveillance des analyses dans le nuage, ce qui accélère et facilite le démarrage de votre nouveau projet.
Cette série de blogs en trois parties (voir les parties 1 et 2) montre comment Actian fournit à ses clients les performances, la flexibilité et le support nécessaires à l'intégration avec d'autres technologies big data pour fournir des informations plus rapides et plus riches afin de prendre de meilleures décisions commerciales.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.