L'impact des mises à jour sur la performance des entrepôts de données
Actian Corporation
20 août 2020

Lorsque les entreprises prévoient la croissance de leur entrepôt de données, elles envisagent souvent une courbe qui imite la croissance des données dans les systèmes sources. Cette approche fonctionne si la seule chose qui vous préoccupe est la croissance du stockage. Ce qui est généralement négligé, c'est la courbe de croissance du calcul pour le traitement des mises à jour de vos données. Les systèmes informatiques étant de plus en plus interconnectés, les mises à jour de données à un endroit ont un effet d'entraînement car elles sont répliquées ailleurs. Votre entrepôt de données reçoit alors des mises à jour de toutes les sources de données concernées, et pas seulement de l'endroit où la modification a été initiée. Si la croissance calculée n'est pas planifiée et prise en compte dans l'architecture et l'infrastructure de votre entrepôt de données, les performances risquent d'en pâtir.
L'effet boule de neige sur les temps de latence
La performance d'un entrepôt de données est un élément essentiel à surveiller. Si vous commencez à prendre du retard dans le traitement des mises à jour de données, le problème ne fera que s'aggraver. N'oubliez pas que les mises à jour sont des données streaming . Si votre entrepôt de données ne peut traiter que 9 des 10 unités demandées chaque seconde, cela signifie qu'une unité est mise en file d'attente. Cela peut sembler anodin, mais si la situation perdure pendant 2 minutes, vous avez alors 120 unités en file d'attente et un temps de latence de 13 secondes. Si la situation persiste pendant une heure, il y aura 3 600 unités dans la file d'attente et un délai de traitement de 6,6 minutes. Faites jouer cette situation pendant un jour ouvrable et vous verrez que le problème devient très vite insurmontable.
Pourquoi est-ce important ?
La performance des entrepôts de données peut ne pas sembler être un problème majeur dans le contexte des rapports programmés et des requêtes par lots. C'est dans le contexte des processus d'entreprise modernes "transformés numériquement" qui s'appuient sur les entrepôts de données comme point d'agrégation pour les mesures opérationnelles en temps réel qui couvrent de multiples systèmes sources que cela devient problématique. Prenons l'exemple d'une usine de fabrication composée de différentes lignes de production. Cette installation dispose de nombreux capteurs et machines intelligentes qui collectent des données et les streaming à un entrepôt de données où elles sont combinées à des informations sur l'approvisionnement en matériaux, à des données sur la qualité des produits (provenant de tests) et à des données logistiques sortantes. L'entrepôt de données permet d'agréger les données de tous les systèmes intelligents en un ensemble de données de bout en bout qui peuvent alimenter les tableaux de bord que les exploitants de l'installation utilisent pour assurer le bon fonctionnement de l'entreprise. Si des problèmes de performance dans l'entrepôt de données retardent les mises à jour des systèmes sources, les problèmes ne peuvent pas être identifiés/remédiés en en temps réel, et l'entreprise perd l'agilité dont elle a besoin pour fonctionner de manière optimale.
Actian relève le défi de la performance des entrepôts de données
L'entrepôt de données cloud hybride entrepôt de données cloud Actian relève le défi de la performance et minimise le risque de délai de mise à jour de trois façons principales.
- Calcul dynamique à l'échelle du nuage. Actian tire parti de la nature souple de l'infrastructure en nuage pour ajuster les ressources de calcul afin de répondre aux besoins de traitement sur demande. Si vous constatez une augmentation des mises à jour de données en raison de la croissance des données ou d'un pic, Actian peut ajuster les ressources de l'infrastructure pour fournir la capacité nécessaire. Vous ne pouvez pas faire cela avec une infrastructure sur site qui est limitée par une capacité matérielle fixe.
- Traitement vectoriel. Le traitement vectoriel permet de traiter plus efficacement les grands ensembles de données, ce qui réduit la charge de calcul globale du système.
- Maximiser l'utilisation du matériel. Actian est conçu pour tirer parti de la mémoire cache des processeur pour le traitement de l'exécution, et de chaque cœur de processeur disponible pour minimiser le gaspillage d'infrastructure. La plupart des systèmes d'entrepôt de données n'utilisent pas toute la capacité disponible du processeur et exploitent la mémoire RAM pour le traitement de l'exécution, ce qui réduit la capacité de traitement de de haute performance .
En fin de compte, la capacité de votre entrepôt de données à maintenir des performances élevées lors du traitement des mises à jour dépend de l'offre et de la demande de capacité de calcul. Vous ne pouvez pas vraiment contrôler la demande de mises à jour (à moins que vous ne souhaitiez débrancher certains systèmes sources ou ralentir votre activité). Ce que vous pouvez contrôler, c'est la capacité de votre entrepôt de données à traiter ces mises à jour. Actian propose la solution la plus performante du marché grâce à une combinaison de ressources à l'échelle du nuage, à une utilisation efficace des ressources matérielles et à un traitement vectorisé à l'échelle du tableau. Avec Actian, vous pouvez consacrer plus de temps à la croissance de votre entreprise et moins de temps à vous demander si votre entrepôt de données peut suivre.
Pour en savoir plus, consultez le site www.actian.com/data-platform.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.