Qu'est-ce qu'un entrepôt de données ?
Entrepôt de données

Transformez votre entreprise grâce à un entrepôt de données moderne

Graphique isométrique d'une structure d'entrepôt de données stylisée, d'un bleu éclatant, avec des baies de serveurs sur un fond sombre.

Les entreprises modernes fonctionnent avec des données, et beaucoup de données. Un entrepôt de données permet de regrouper en un seul endroit les données provenant de tous vos systèmes informatiques, de les analyser et d'en tirer les enseignements dont vous avez besoin pour être compétitif. Ce guide sur les entrepôts de données explique ce qu'est un entrepôt de données, pourquoi vous en avez besoin, comment il est utilisé et quels sont les avantages que vous pouvez en tirer.

Définition de l'entrepôt de données

Un "entrepôt de données" est un dépôt données historiques organisées par sujet pour support les décideurs d'une organisation. Les entrepôts de données sont des systèmes utilisés pour stocker des données provenant d'une ou de plusieurs sources disparates dans un endroit centralisé où elles peuvent être consultées pour l'établissement de rapports et l'analyse des données. Les données de l'entrepôt de données peuvent être actuelles ou historiques, et peuvent être sous forme de données brutes originales ou traitées/résumées.

Les données d'un entrepôt de données sont importées de systèmes sources (tels que les plateformes ERP, CRM ou financières) et rassemblées dans l'entrepôt où elles peuvent être utilisées dans l'ensemble de l'entreprise pour créer des rapports analytiques et support prise de décision l'entreprise. Le processus général utilisé pour agréger et transformer les données pour l'entreposage est appelé "extraction, transformation et chargement", ou ETL en abrégé. Cela signifie qu'une entreprise prend une copie des données des systèmes sources, laissant les données originales intactes et en place - évitant ainsi de perturber les processus transactionnels en cours.

Une fois les données chargées dans l'entrepôt de données, elles sont affinées et traitées pour éliminer les problèmes de qualité des données, intégrer les sources de données interdépendantes et les organiser pour faciliter leur utilisation. Les entrepôts de données contiennent aussi souvent des résumés de données prétraités et des instantanés de données à différents moments, qui sont utilisés pour faciliter l'analyse. Alors que les systèmes transactionnels s'attachent surtout à maintenir l'état actuel des données (en écrasant les valeurs lorsque les données sont mises à jour), les entrepôts conservent l'historique des changements et de l'évolution des données d'une entreprise. Cet aspect est particulièrement important lors de l'analyse des tendances et d'autres analyses commerciales destinées à répondre à des questions sur le "pourquoi" d'un événement au sein d'une entreprise.

Pourquoi les entreprises ont-elles besoin d'un entrepôt de données ?

Avec les entreprises qui se lancent dans la transformation numérique de leurs activités, presque tous les processus d'entreprise deviennent dépendants d'une multitude de systèmes informatiques et des données que ces systèmes enregistrement et conservent. Pour que les entreprises fonctionnent efficacement et atteignent leurs objectifs, les employés, des cadres supérieurs aux collaborateurs individuels, ont besoin d'un accès efficace aux données et aux analyses qui fournissent des informations exploitables sur le fonctionnement de l'entreprise, les domaines de risque ou d'inquiétude et les possibilités d'avantage concurrentiel. Les informations dont ces personnes ont besoin proviennent de nombreux systèmes sources différents, mais pour qu'elles soient facilement accessibles à des fins d'analyse, les entreprises ont besoin que les données soient regroupées en un lieu commun. Il s'agit d'un entrepôt de données.

  • La nécessité de disposer d'informations qui couvrent plusieurs systèmes de sources.
  • Fournir une archive à long terme pour les données transactionnelles, de sorte que les systèmes sources puissent être purgés pour maintenir des performances élevées.
  • Fournir un lieu où les rapports et les analyses peuvent être effectués sans créer une charge supplémentaire sur les systèmes opérationnels.

La nécessité de disposer d'informations intégrées est de loin le principal facteur d'investissement dans les systèmes d'entrepôt de données, car elle répond à la fois à des besoins stratégiques des entreprises (conduisant à un avantage concurrentiel) et à des besoins tactiques/opérationnels pour soutenir les activités quotidiennes des entreprises. Les entrepôts de données sont des investissements informatiques coûteux, tant pour l'installation initiale que pour l'exploitation. Ils sont donc considérés comme un investissement à long terme et, avec le temps, ils deviennent partie intégrante du tissu sous-jacent de l'écosystème informatique d'une entreprise. Les données stockées dans un entrepôt de données proviennent souvent de l'ensemble de l'entreprise et permettent aux utilisateurs de fonctions commerciales disparates d'exploiter des ressources de données qui s'étendent bien au-delà de leur zone de contrôle ou d'influence directe.

Concepts de l'entrepôt de données

Il existe de nombreuses variantes des entrepôts de données et des concepts connexes, ce qui peut être source de confusion pour les novices en la matière. Voici quelques-uns des concepts d'entrepôt de données les plus courants pour aider à démystifier le sujet de l'entrepôt de données :

  • Entrepôt de données d'entreprise (EDW ) - L'EDW est un entrepôt de données conçu pour support ensemble d'une entreprise, et non une seule fonction. Les entrepôts de données d'entreprise sont courants dans les grandes entreprises et jouent le rôle important de passerelle entre les unités commerciales, les sites et les systèmes informatiques fragmentés. Même si votre entreprise dispose de plusieurs systèmes transactionnels, un EDW peut être utilisé pour rassembler toutes les données en un seul endroit afin de centraliser les analyses et les rapports.
  • Magasin de données opérationnelles (ODS ) - Un magasin de données opérationnelles est la partie de votre entrepôt global qui contient les données brutes agrégées de vos systèmes transactionnels et opérationnels avant qu'elles ne soient traduites et résumées. Les entreprises maintiennent souvent un ODS séparé de leurs marts de données afin de permettre aux analystes d'accéder aux données sous-jacentes utilisées pour générer des rapports.
  • Data Mart - Les data marts sont une vue simplifiée des données dans un entrepôt qui se concentre sur un seul sujet ou domaine fonctionnel. Un seul département au sein d'une organisation construit et contrôle souvent les marts de données, qui peuvent (ou non) être intégrés à l'entrepôt de données de l'entreprise. Les entreprises qui ne disposent pas d'un entrepôt de données complet peuvent avoir quelques marts de données à la place. Les données stockées dans les data marts sont généralement organisées et filtrées pour support besoins spécifiques du département qui les a commanditées. La plupart des marts de données sont actualisés chaque nuit à partir des systèmes sources, de sorte que les données qu'ils contiennent peuvent dater de 24 heures.
  • OLAP - traitement analytique en ligne sont des systèmes spécialisés conçus pour support activités d'exploration de données. Ils appliquent plusieurs couches d'algorithmes complexes pour extraire, explorer et découper les données brutes afin d'en tirer des informations utiles à l'entreprise. Les systèmes OLAP s'exécutent généralement plusieurs fois par jour, générant des analyses datant de quelques heures (par rapport aux data marts qui ont souvent un temps de latence d'une journée entière).
  • informatique décisionnelle (BI) - informatique décisionnelle est un terme général utilisé pour décrire un ensemble de techniques et d'outils pour l'acquisition et la transformation de données brutes en informations significatives et utiles à des fins d'analyse commerciale. Les entrepôts de données constituent souvent le cœur des capacités informatique décisionnelle d'une entreprise, en plus des outils d'analyse et de reporting.
  • exploration de données - exploration de données est le processus de découverte de modèles dans de grands ensembles de données. L'exploration de données moderne implique souvent une combinaison d'apprentissage automatique, d'intelligence artificielle, de statistiques et d'entreposage de données. Les entreprises exploitent les données pour obtenir des informations commerciales exploitables qui leur confèrent un avantage concurrentiel.
  • ETL - L'exportation, la transformation et le chargement, ou ETL en abrégé, est le processus utilisé pour déplacer les données des systèmes source transactionnels vers l'entrepôt de données où elles peuvent être affinées et consommées. Les types et l'étendue de la transformation des données déterminent souvent le niveau de qualité des données dans l'entrepôt de données.
  • nettoyage des données - nettoyage des données est l'ensemble des activités entreprises pour résoudre les problèmes de qualité des données brutes. Les données combinées à partir de différentes sources héritent non seulement des problèmes de qualité des données sources (tels que les inexactitudes, les données manquantes, les enregistrements incomplets et les relations rompues), mais sont également susceptibles d'inclure des lacunes, des redondances et des conflits entre les sources de données. Le nettoyage des données permet de résoudre ces problèmes avant que les données ne soient introduites dans l'entrepôt de données.
  • métadonnées - Les métadonnées sont des données sur vos données, telles que la taille, le format, la source, les descriptions, les relations et la classification des données. Les métadonnées sont importantes dans un entrepôt de données, car elles aident les utilisateurs à trouver et à comprendre facilement les données qui ont été déplacées de leur contexte d'origine.
  • Dictionnaire de données - Le dictionnaire de données est un ensemble de données de référence sur les objets, éléments et attributs de données stockés dans votre entrepôt de données. Il permet aux utilisateurs de comprendre le contenu et le contexte des données au-delà des simples étiquettes et descriptions de champs.
  • gouvernance données- La gouvernance données est l'ensemble des processus et des contrôles qui garantissent que les données sont créées et conservées conformément aux normes, aux politiques et aux règles de l'entreprise et que, lorsque les données sont transformées, elles restent conformes aux définitions des données et aux contraintes d'intégrité définies dans le modèle de données.

Architecture de l'entrepôt de données

Il existe deux types d'architectures qu'il est important de comprendre dans un entrepôt de données. L'architecture architecture du système des différents composants techniques qui constituent collectivement la solution d'entrepôt de données et l'architecture des architecture des données des informations stockées dans l'entrepôt de données.

L'architecture d'un entrepôt de données est généralement alignée sur les étapes de transformation qui ont lieu lorsque les données brutes sont affinées en informations exploitables et consommables par les utilisateurs. On peut l'assimiler à un processus de fabrication, transformant des matières premières en produits finis consommables, avec de multiples étapes d'affinage tout au long du processus.

  • Sources de données - Il s'agit des différents systèmes sources qui fournissent des données à l'entrepôt de données.
  • Zone de transit ou lac de données - La zone de transit est utilisée pour stocker les données brutes importées de chacune des différentes sources de données, afin qu'elles puissent être traitées sans affecter les performances des systèmes transactionnels.
  • Intégration - La couche d'intégration permet de relier les données disparates provenant de diverses sources, d'établir des relations clés, de résoudre les doublons et de stocker les données dans un magasin de données opérationnel (ODS).
  • Base de données de l'entrepôt - Les données sont transférées du magasin de données opérationnelles vers la base de données centrale de l'entrepôt, où elles sont cataloguées et organisées en groupes hiérarchiques appelés dimensions, en faits et en faits agrégés. Cette organisation hiérarchique facilite la recherche des données dans l'entrepôt et améliore les performances de traitement.
  • Entrepôt de données opérationnel - Un entrepôt de données opérationnel (ODW) répond au besoin d'analyses opérationnelles qui fournissent la base pour analyses des données en temps réel. Les caractéristiques d'un ODW comprennent l'actualité, la de haute performance, la nécessité de gérer efficacement les mises à jour et la flexibilité d'être déployé sur site et dans le nuage.
  • Marais de données - Les marais de données sont des vues, ou sous-ensembles, des données qui sont résumées et conservées pour un public spécifique. Les marts de données ont pour but de faciliter l'accès aux données de l'entrepôt de données et d'appliquer un niveau de contrôle d'accès aux données, en veillant à ce que seules les personnes autorisées à les utiliser puissent le faire.
  • Utilisateurs - Il s'agit des nombreuses personnes, des processus d'entreprise et des systèmes qui accèdent aux données de l'entrepôt de données. Il s'agit d'utilisateurs humains et d'autres systèmes, tels que les systèmes d'intelligence artificielle (IA) et d'support décision.

L'architecture des données d'un entrepôt de données fait référence à la manière dont les données sont organisées au sein de l'entrepôt. L'architecture des données est un sujet plus complexe, car les transformations qui se produisent dans le système d'entrepôt de données impliquent souvent des changements d'une architecture de données à une autre. Les données de la plupart des systèmes sources sont organisées sous forme de schémas de bases de données relationnelles, conformément à un ensemble de principes appelé normalisation des données , introduit par Edgar Codd en 1970. Alors que les architectures de données relationnelles normalisées fonctionnent bien pour les systèmes transactionnels qui ne s'intéressent qu'aux données actuelles, les entrepôts de données transforment les données relationnelles en ce que l'on appelle un schéma en étoile, qui agrège les données en fonction de leur contenu et de la manière dont elles sont consommées. Les marts de données (les vues d'un entrepôt de données consommées par les utilisateurs) peuvent transformer à nouveau l'architecture des données, soit en processus d'entreprise, soit en vues simplifiées par domaine qui s'alignent sur la façon dont les données sont utilisées pour la prise de décision.

Qu'est-ce qu'un système d'entrepôt de données ?

L'entrepôt de données est une base de données stable, en lecture seule, qui regroupe des informations provenant de systèmes distincts en un seul endroit facile d'accès. Il s'agit d'une couche superposée à d'autres bases de données, spécialement conçue pour soutenir l'analyse. Le terme "système d'entrepôt de données" est utilisé pour désigner l'ensemble des composants qui fonctionnent ensemble pour fournir la capacité globale d'entreposage de données à une organisation. De nombreux fournisseurs de logiciels commerciaux vendent des systèmes d'entrepôt de données, disponibles à la fois sur site et hébergés dans le nuage. Un système d'entrepôt de données comprend généralement une ou plusieurs bases de données, des outils d'extraction, de transformation et de chargement (ETL) à partir de systèmes sources, des capacités de gestion des schémas de données et du dictionnaire de données, ainsi que des outils de publication de données vers des marges de données et des systèmes consommateurs.

Exemples d'entrepôts de données

Il existe de nombreux exemples d'entreprises qui utilisent des entrepôts de données aujourd'hui. Parmi les exemples les plus courants, citons

Entrepôt de données sur les ventes

Un entrepôt de données spécialisé contenant des données sur les activités de vente et de marketing d'une entreprise. Il est probable qu'il contienne des données sur les clients, les transactions commerciales, les campagnes de marketing, les sentiments et les commentaires des clients, ainsi que des données sur la concurrence. Les équipes de vente et de marketing utilisent directement un entrepôt de données de vente pour la génération de prospects et le ciblage des clients, ainsi que pour d'autres fonctions de l'entreprise, telles que la gestion des produits qui développe de nouvelles offres et les équipes financières qui réalisent des projections de croissance du chiffre d'affaires.

Entrepôt de données sur la fabrication

Les entreprises qui gèrent des processus de fabrication complexes, des opérations logistiques et des chaînes d'approvisionnement externalisé disposent souvent d'un entrepôt de données dédié pour regrouper toutes les données relatives à leurs opérations de fabrication en un lieu commun pour l'établissement de rapports. Cela leur permet d'effectuer des analyses approfondies, en recherchant, par exemple, des problèmes de qualité et des possibilités d'amélioration des performances, sans perturber les processus de fabrication qui doivent utiliser des systèmes transactionnels. Les entreprises dont les chaînes d'approvisionnement externalisé utilisent également souvent un entrepôt de données de fabrication pour regrouper les données de plusieurs fournisseurs sans avoir à développer de nombreuses intégrations point à point entre les systèmes ERP.

Entrepôt de données d'entreprise

Les grandes entreprises choisissent souvent de centraliser leurs archives de données dans un entrepôt de données d'entreprise unique qui contient des données provenant des systèmes informatiques et des processus de l'ensemble de l'organisation. Bien que les entrepôts de données d'entreprise puissent être coûteux à construire et à exploiter, ils offrent la meilleure opportunité d'identifier des informations commerciales exploitables qui dépassent les fonctions de l'entreprise et les frontières de l'organisation. Un entrepôt de données d'entreprise peut également permettre à une entreprise de conserver des données à long terme, ce qui peut s'avérer nécessaire pour se conformer à la réglementation. Les données peuvent être stockées dans l'EDW même après que les systèmes sources ont été retirés et mis hors service.

Entrepôt de données et base de données

Les bases de données sont un élément important de votre entrepôt de données, mais les deux termes ne sont pas interchangeables. Une base de données est le terme générique pour un système de stockage où vous enregistrement données, qui sont utilisées à de nombreuses fins, y compris, par exemple, le traitement des transactions, la prise en charge de la fonctionnalité des applications et l'établissement de rapports. Les bases de données comprennent, par exemple, les bases de données OLTP (bases de données d'application), OLAP (utilisées dans les entrepôts de données), XML, les fichiers CSV, les fichiers texte et les feuilles de calcul. La plupart des bases de données sont limitées dans leur utilisation à une application, un processus commercial ou un objectif spécifique. Une base de données conçue pour traiter des transactions n'est pas structurée pour bien faire de l'analyse.

Par comparaison, un entrepôt de données est un ensemble spécialisé de capacités permettant d'extraire des données de systèmes transactionnels et de les stocker dans un type spécifique de base de données organisée et optimisée pour support analyse des données et l'établissement de rapports. Un entrepôt de données typique comprend plusieurs bases de données qui stockent les données à différents niveaux de transformation, y compris les bases de données sources, les magasins de données opérationnelles, la base de données centrale de l'entrepôt de données et les marts de données spécialisés qui présentent des vues filtrées des données aux utilisateurs.

Avantages d'un entrepôt de données

Les entreprises mettent en place des entrepôts de données pour de nombreuses raisons, qu'il s'agisse de la nécessité d'obtenir des informations commerciales stratégiques ou de relever les défis tactiques liés à l'agrégation et à la conservation des données. En général, les entrepôts de données offrent les avantages suivants :

  1. Intégrer des données provenant de sources multiples dans un modèle de données unique - Cet avantage est important pour les entreprises qui utilisent des offres logicielles prêtes à l'emploi et SaaS qui ont leur propre modèle de données qui ne peut pas être personnalisé pour s'aligner sur une norme de l'entreprise. L'entrepôt de données permet de réconcilier les incongruités des modèles de données entre les systèmes sources afin d'obtenir une vue d'ensemble des données de l'entreprise.
  2. Fournir un lieu d'accès unifié aux données - L'accès des utilisateurs aux données provenant de la grande variété de systèmes sources utilisés dans une entreprise peut s'avérer à la fois coûteux et fastidieux. Un entrepôt de données permet de regrouper les données en un lieu commun où elles peuvent être organisées et présentées aux utilisateurs pour une utilisation aisée.
  3. Conserver l'historique des données sans ralentir les systèmes sources - Les flux de travail des entreprises produisent continuellement de nouvelles données. Avec le temps, le volume de nouvelles données créées commence à ralentir les systèmes transactionnels. En transférant les données vers un entrepôt de données, les systèmes sources peuvent être débarrassés des anciennes données afin de maintenir l'efficacité du traitement transactionnel.
  4. Permettre une vue centralisée de l'ensemble de l'entreprise - La plupart des services d'une entreprise sont très attachés aux données qu'ils créent, voulant contrôler et restreindre l'accès à ces données et leur utilisation. Bien qu'il s'agisse dans certains cas d'une bonne pratique (comme les secrets commerciaux), une grande partie des données produites au sein d'une entreprise ont le potentiel de créer de la valeur dans d'autres parties de l'entreprise. L'entrepôt de données est un lieu commun où les données des en silo fonctionnels peuvent être rassemblées pour créer une image globale des données de l'entreprise, ce qui permet souvent d'obtenir des informations qui aident les chefs d'entreprise à prendre des décisions en matière d'investissement et de planification stratégique.
  5. Nettoyer et réconcilier les données ambiguës et les doublons - Il est très rare que des données provenant de différents systèmes sources s'intègrent de manière propre et transparente. Le plus souvent, lorsque vous recueillez des données, il y a des conflits, des lacunes, des redondances et des éléments d'information manquants qui doivent être corrigés pour que l'ensemble des données combinées puisse être utilisé efficacement à des fins d'analyse. Les différences peuvent être intentionnellement basées sur les besoins de l'entreprise, mais lorsqu'elles sont utilisées dans le contexte de l'établissement de rapports, elles peuvent être source de confusion. L'entrepôt de données permet aux entreprises d'appliquer des règles de gestion pour résoudre les problèmes de qualité des données sans avoir à modifier les systèmes sources.
  6. Surveillance et contrôle centralisés pour appliquer les politiques d'accès et d'utilisation des données - La gouvernance données et le contrôle des personnes autorisées à accéder aux données et à les utiliser au sein de l'entreprise constituent un élément important de la maximisation de la valeur des actifs de données d'une entreprise. Parce qu'un entrepôt de données constitue un dépôt centralisé de données provenant de l'ensemble de l'entreprise, il constitue également l'endroit idéal pour mettre en œuvre des politiques d'accès aux données.
  7. Éviter l'impact sur les performances de l'interrogation des systèmes transactionnels pour l'établissement de rapports - Les requêtes analytiques ont tendance à être très complexes et à consommer des ressources considérables de traitement du système. L'exécution d'analyses et de rapports sur des systèmes transactionnels peut entraîner des problèmes de latence au niveau des interfaces utilisateur et ralentir les flux de travail de l'entreprise. Les entrepôts de données constituent un environnement distinct dans lequel les requêtes analytiques peuvent être exécutées en toute sécurité sans affecter les performances des bases de données sources ou des applications qui en dépendent.
  8. Organiser les données pour qu'elles aient un sens pour les utilisateurs professionnels - Les systèmes transactionnels ont des structures de données optimisées pour la performance des applications et des flux de travail qu'ils support - et non pour être facilement comprises par les utilisateurs humains. Les entrepôts de données et les marts de données permettent de réorganiser, de cataloguer et de décrire les données d'une entreprise de manière à ce que les utilisateurs puissent les comprendre et que les données dont ils ont besoin pour prendre des décisions soient plus faciles à trouver.