Comment le partitionnement sur votre plate-forme de données améliore les performances
Colm Ginty
14 décembre 2023

L'un de mes objectifs en tant que responsable de la réussite des clients pour Actian est d'aider les organisations à améliorer l'efficacité et la simplicité d'utilisation de notre suite de produits modernes. C'est pourquoi j'ai récemment rédigé un article détaillé sur les meilleures pratiques de partitionnement pour la plateforme de données Actian dans les ressources des communautés Actian.
Dans ce blog, j'aimerais vous expliquer comment le partitionnement peut contribuer à améliorer la facilité de gestion et la performance de la plateforme Actian. Le partitionnement est une fonction utile et puissante qui divise les tables et les index en éléments plus petits et peut même les subdiviser en éléments encore plus petits. C'est comme si l'on prenait des milliers de livres et qu'on les classait par catégories, ce qui fait la différence entre une pile massive de livres dans une grande pièce et une disposition stratégique des livres dans des zones thématiques plus petites, comme dans une bibliothèque moderne.
L'utilisation de la fonction de partitionnement disponible sur notre plateforme peut vous apporter plusieurs avantages commerciaux et informatiques. Par exemple, le partitionnement permet de réduire les coûts en stockant les données de manière optimale et d'améliorer les performances en exécutant les requêtes en parallèle sur de petites tables divisées.
Pourquoi la distribution et le partitionnement des tables sont essentiels pour les performances
Lorsque nous travaillons dans le nuage, nous utilisons des systèmes distribués. Ainsi, au lieu d'utiliser un grand serveur, nous utilisons plusieurs serveurs de taille normale qui sont mis en réseau et fonctionnent comme les nœuds d'un énorme système unique. Traditionnellement, ces nœuds stockent et traitent les données, car le stockage des données sur le même nœud que celui où elles sont traitées permet d'obtenir des performances rapides.
Aujourd'hui, le stockage moderne d'objets dans le nuage permet une récupération des données très efficace récupération des données par le nœud de traitement, quel que soit l'endroit où les données sont stockées. Par conséquent, il n'est plus nécessaire de placer les données sur le même nœud que celui qui les traitera pour bénéficier d'un avantage en termes de performances.
Pourtant, même si nous n'avons plus à nous préoccuper de la manière dont nous stockons les données, nous devons veiller à la manière la plus efficace de les traiter. Souvent, les tables de notre entrepôt de données contiennent trop de données pour être traitées efficacement à l'aide d'un seul nœud. C'est pourquoi les tables sont réparties entre plusieurs nœuds.
Si une table spécifique contient trop de données pour être traitée par un seul nœud, elle est divisée en partitions. Ces partitions sont ensuite réparties entre les nombreux nœuds : c'est l'essence même d'un "système distribué", qui se prête à des performances rapides.
Partitionnement dans la plate-forme de données Actian
Une stratégie de partitionnement et une stratégie de gestion des données dans le nuage peuvent vous aider à tirer le meilleur parti de votre plateforme de données. Vous pouvez partitionner les données de différentes manières en fonction, par exemple, des besoins d'une application et du contenu des données. Si l'objectif principal est la performance, vous pouvez répartir la charge de manière uniforme afin d'obtenir un débit maximal. Plusieurs méthodes de partitionnement sont disponibles sur la plate-forme de données Actian.
Le partitionnement est important pour notre plateforme car elle est conçue pour le parallélisme. La distribution des lignes d'une grande table dans des sous-tables plus petites, ou partitions, contribue à la performance des requête rapides.
Les utilisateurs ont leur mot à dire sur la manière dont la plate-forme Actian gère les partitions. Si vous choisissez de ne pas gérer la partition, la plate-forme adopte par défaut le paramètre automatique. Dans ce cas, le serveur fait de son mieux pour partitionner les données de la manière la plus appropriée. L'inconvénient est qu'avec cette approche, la jonction ou le regroupement de données affectées à différents nœuds peut nécessiter le déplacement de données sur le réseau entre les nœuds, ce qui peut augmenter les coûts.
Une autre option consiste à contrôler soi-même les partitions en utilisant une valeur de hachage pour répartir les lignes de manière égale entre les partitions. Cela vous permet d'optimiser le partitionnement pour les jointures et les agrégations. Par exemple, si vous interrogez des données dans l'entrepôt de données et que la requête implique de nombreuses jointures ou regroupements SQL, vous pouvez partitionner les tables de manière à ce que certaines valeurs de colonnes soient affectées au même nœud, ce qui rend les jointures plus efficaces.
Quand faut-il partitionner ?
La meilleure pratique consiste à utiliser la fonction de partitionnement dans Actian Data Platform lorsque vous créez des tables et chargez des données. Cependant, vous avez probablement des tables non partitionnées dans votre entrepôt de données, et la redistribution de ces données peut améliorer les performances.
Vous pouvez effectuer des requêtes qui vous indiqueront dans quelle mesure les données sont uniformément réparties dans leur état actuel dans l'entrepôt de données. Vous pouvez alors déterminer si un partitionnement est nécessaire.
Avec Actian, vous avez la possibilité de choisir le nombre de partitions le mieux adapté à vos besoins. Vous pouvez utiliser l'option par défaut, qui permet à la plateforme de choisir automatiquement le nombre optimal de partitions en fonction de la taille de votre entrepôt de données.
J'encourage les clients à commencer par la valeur par défaut, puis, si nécessaire, à choisir manuellement le nombre de partitions. Actian Data Platform étant conçu pour le parallélisme, l'exécution de requêtes qui donnent un aperçu de la façon dont vos données sont distribuées, puis le partitionnement des tables en fonction des besoins, vous permettent d'opérer efficacement avec des performances optimales.
Pour obtenir des détails sur la façon d'effectuer le partitionnement, y compris des exemples, des graphiques et du code, joignez-vous à la communauté Actian et consultez mon article sur les pratiques exemplaires en matière de partitionnement. Vous pouvez apprendre tout ce que vous devez savoir sur le partitionnement sur la plateforme de données Actian en seulement 15 minutes.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.