Non classé

Qu'est-ce qu'un logiciel d'entrepôt de données ?

sécuriser vos informations dans un entrepôt de données avec un schéma de base de données

Les logiciels d'entreposage de données gèrent et stockent des données provenant de nombreuses sources, ce qui facilite l'analyse et la visualisation pour support prise de décision l'entreprise.

Qu'est-ce qu'un logiciel d'entrepôt de données ?

Un entrepôt de données est essentiellement une base de données structurée pour faciliter la recherche. Les bases de données transactionnelles sont utilisées pour des applications telles que la saisie de commandes. Elles sont donc conçues pour gérer de grands volumes d'insertions de nouvelles commandes et ont peu d'index à maintenir. Les entrepôts de données ont souvent des schémas en étoile élaborés qui sont organisés en une seule table de faits avec tous les attributs liés à un domaine, entourée de nombreuses tables de dimensions qui correspondent à des requêtes populaires et sont indexées pour support ces requêtes. Une architecture d'entrepôt de données plus moderne, les bases de données en colonnes, stocke les tables sous forme de colonnes individuelles. C'est le cas du moteur d'entreposage de données utilisé par la plateforme de données Actian.

Pourquoi utiliser un logiciel d'entrepôt de données ?

Avant que les entrepôts de données ne deviennent populaires, les entreprises se contentaient de décharger chaque nuit les données des bases de données opérationnelles, de créer une copie de la base de données, d'ajouter des index supplémentaires et d'exécuter des rapports. La principale raison pour laquelle elles procédaient ainsi était que la base de données opérationnelle restait libre pour traiter les transactions critiques, telles que la prise de commandes des clients, sans avoir à partager les ressources avec les utilisateurs internes. Vous trouverez ci-dessous d'autres exemples de raisons pour lesquelles les entreprises utilisent des entrepôts de données :

  • Un entrepôt de données peut être structuré de manière à support prise de décision commerciales, par exemple en indiquant où les clients achètent certains produits. Ces données peuvent aider à décider quelle distribution doit stocker certains produits.
  • Un entrepôt de données peut être utilisé comme dépôt données provenant de plusieurs unités et applications de l'entreprise, afin de créer un pôle central pour les données de l'entreprise. Un entrepôt de données d'entreprise peut être utilisé pour alimenter des tableaux de bord qui montrent à la direction les performances de l'entreprise par rapport à des indicateurs clés de performance.
  • Un entrepôt de données distribué peut être utilisé dans une division géographique d'une entreprise avec des analyses locales et une latence de réseau minimale.
  • Un lac de données peut être utilisé comme une extension d'un entrepôt de données pour des requêtes ad hoc.
  • Sans un entrepôt de données et des outils d'informatique décisionnelle (BI) faciles à utiliser, les analystes commerciaux devraient s'appuyer sur des équipes informatiques débordées, ce qui entraînerait des retards et des opportunités de marché potentiellement manquées.
  • Un entrepôt de données sur les ventes au détail peut être utilisé pour effectuer une analyse du panier de marché afin d'optimiser les niveaux de stock et l'emplacement des produits.
  • Les entrepôts de données sur les soins de santé peuvent être utilisés pour analyser les données des essais cliniques afin de trouver des corrélations entre les symptômes et les traitements.
  • Les organisations de services informatiques peuvent utiliser un entrepôt de données pour rechercher les causes profondes des incidents et résoudre les problèmes à long terme de leurs logiciels ou services.
  • Un entrepôt de données peut être utilisé pour alimenter des outils d'support décision tels que les cubes qui contiennent des tranches et des dés de données pré-agrégés pour une analyse rapide.

Comment fonctionne un logiciel d'entrepôt de données ?

La plupart des logiciels d'entrepôt de données reposent sur un système de gestion de base de données relationnelles SGBDR) qui gère les mouvements de données entre la mémoire et le stockage de fichiers secondaires. L'instance de la base de données se connecte aux applications clientes afin de pouvoir traiter les requêtes soumises et les autres demandes. Les requêtes sont analysées, les plans de requête sont créés et exécutés, et les ensembles de résultats sont renvoyés à la session requérante. Pour les opérations de mise à jour, l'instance de base de données assure la gestion des transactions, ce qui permet de valider ou d'annuler plusieurs opérations SQL INSERT, UPDATE et DELETE.

  • Gestion des sessions : Gère la connexion aux applications client qui peuvent être gérées comme un pool par un équilibreur de charge. L'instance de base de données est également responsable du maintien de la cohérence des données, de sorte que touterequête utilisateur qui agrège ou regroupe des résultats sera toujours cohérente avec l'instant où la requête a commencé, de sorte que vos totalisations s'additionnent toujours.
  • Maintien de l'intégrité de la base de données : L'entrepôt de données doit donc s'assurer que toutes les opérations d'écriture en mémoire sont toujours renvoyées vers le stockage secondaire. Tous les entrepôts de données disposent de journaux de transactions pour garantir le maintien de l'intégrité de la base de données. Supposons que le serveur tombe en panne au moment du redémarrage. Dans ce cas, l'instance de la base de données utilise le journal des transactions pour revenir au dernier point de contrôle avant de revenir à un point cohérent.
  • Haute disponibilité: Elle est assurée par l'existence de plusieurs copies des données stockées et de plusieurs instances qui prennent le relais en cas de défaillance d'une tâche travailleur. Dans le cas où une instance ne répond plus ou se bloque, les gestionnaires d'interruption manquants attendent un certain temps avant de passer à une instance de secours.

Le maintien de la cohérence données sur plusieurs serveurs dans un entrepôt de données en grappe nécessite un gestionnaire de verrouillage distribué qui garantit que, lorsqu'une mise à jour des données est effectuée, un seul serveur est propriétaire du bloc de données modifié et que les autres sessions souhaitant effectuer une modification attendent leur tour.

Architecture de l'entrepôt de données

Chaque fournisseur de solutions d'entreposage de données différencie ses solutions de multiples façons afin de répondre aux besoins de ses clients et de conserver un avantage concurrentiel. Vous pouvez exécuter un entrepôt de données sur un serveur Windows ou Linux sur site ou dans le nuage.

  • Entrepôts de données sur site : Ils présentent l'avantage de ne pas devoir payer un fournisseur pour les ressources de processeur, d'entrée-sortie et de stockage que vous consommez. L'inconvénient des solutions sur site est que vous devez les gérer ; lorsqu'elles n'ont plus de capacité, vous devez acheter un serveur plus grand et interne équipes informatiques interne pour les exploiter et les optimiser.
  • Entrepôts de données dans le nuage : Ils présentent des avantages, notamment la flexibilité de ne payer que pour ce que vous utilisez, l'élasticité infinie qui vous permet d'évoluer en fonction de vos besoins sans acheter de matériel à l'avance, et vous pouvez laisser les tâches de gestion informatique au fournisseur de services en nuage.

Les entrepôts de données peuvent être conçus pour fonctionner sur un système multiprocesseur symétrique (SMP) à capacité limitée ou en tant que traitement massivement parallèle (MPP) sur un ensemble de serveurs en grappe afin de support requêtes parallèles plus importantes ou des populations d'utilisateur plus nombreuses.

Le stockage secondaire d'un entrepôt de données peut être aussi simple qu'un ensemble de fichiers ou de volumes de disques physiques. Une approche plus sophistiquée consiste à utiliser un logiciel de virtualisation pour abstraire le stockage au-delà des capacités des dispositifs physiques. Une abstraction supplémentaire découple la relation entre les serveurs et les dispositifs de stockage dans le domaine des entrepôts de données en nuage. L'avantage d'une telle architecture est qu'elle permet d'adapter le stockage indépendamment des ressources de calcul afin que l'architecture du serveur corresponde au profil de stockage ou à l'application liée au calcul.

Dans certains cas, les entrepôts de données tirent parti de la conteneurisation et des microservices dans le cloud pour fournir une architecture informatique sans serveur, de sorte que vous pouvez être facturé sur la base des requêtes exécutées plutôt que sur les serveurs virtuels dont vous avez acquis la licence.

Une distinction très importante entre les technologies d'entrepôt de données est de savoir si elles utilisent un stockage de table basé sur les lignes ou sur les colonnes. Les approches basées sur les colonnes présentent de nets avantages en termes de performances par rapport aux entrepôts basés sur les lignes, car votre requête ne concerne que les colonnes qui vous intéressent, elles sont auto-indexées pour réduire les coûts d'administration et les objets de colonne plus petits peuvent tirer parti de caches plus rapides sur le processeur. La plateforme de données Actian utilise une architecture avancée basée sur les colonnes dans le nuage et sur site.

Principaux enseignements

Vous trouverez ci-dessous des suggestions pour vous aider à choisir votre entrepôt de données:

  • Offre-t-il une grande intégrité des données ?
  • Est-il sûr ?
  • Existe-t-il un moyen d'obtenir une haute disponibilité ?
  • Sa rapidité a-t-elle été prouvée à l'aide de critères d'évaluation standard ?
  • Utilise-t-il le langage SQL standard, de sorte que vous n'avez pas besoin de former à nouveau vos utilisateurs ?
  • S'agit-il d'une architecture MPP permettant de s'adapter à la croissance des charges de travail ?
  • Le système fonctionnera-t-il dans le nuage, ce qui me permettra d'éviter les dépenses d'investissement initiales et les coûts d'approvisionnement ?
  • Fonctionnera-t-il sur plusieurs services en nuage afin que je puisse placer mon moteur d'analyse là où se trouvent mes données ?
  • Puis-je utiliser le même logiciel d'entrepôt de données sur site pour mes données réglementées ?
  • Conserve-t-il les données de l'entrepôt de données dans un magasin de colonnes ?
  • L'administration et l'optimiser sont-elles rentables ?