Qu'est-ce qu'un catalogue de données?
Les données constituent l'épine dorsale des entreprises de tous les secteurs, mais leur gestion et leur interprétation peuvent s'avérer difficiles si l'on ne dispose pas des bons outils. Un catalogue de données peut vous aider à créer un inventaire clair de vos données afin que votre équipe puisse accéder plus facilement aux informations dont elle a besoin.
Dans cet article, nous étudierons le fonctionnement des catalogues de données, les différents types de métadonnées stockées et gérées par les catalogues, et les avantage qu'ils peuvent avantage votre organisation.
Comment un catalogue de données favorise la gouvernance données
Il améliore la conformité et la gouvernance en garantissant que toutes les données ont un responsable, sont régulièrement mises à jour, sont de haute qualité et sont protégées par des mécanismes de sécurité basés sur les rôles. Des politiques spécifiques telles que les périodes de conservation, les exigences en matière de continuité des activités et la localisation géographique peuvent également être documentées dans le catalogue afin de mettre en œuvre des contrôles de gouvernance appropriés.
Qu'est-ce qu'un catalogue de données?
Un catalogue de données est un centre centralisé qui organise et stocke les métadonnées des actifs de données d'une entreprise ou d'une organisation. L'objectif du catalogue est de faciliter la recherche et l'accès aux données dans l'ensemble de l'organisation. Voici quelques-unes des principales façons dont les catalogues de données peuvent aider les entreprises.
- Mettre en place un système clair de gouvernance données.
- Aider les analystes à identifier les problèmes et les tendances possibles dans les ensembles de données.
- La création d'une voie d'accès claire pour les responsables des données afin qu'ils sachent où les données sont stockées et consultées.
- Simplifier le processus de recherche de données.
Quel type de métadonnées un catalogue de données conserve-t-il ?
Un catalogue de données peut contenir des métadonnées relatives à des aspects techniques et commerciaux. Les métadonnées techniques peuvent inclure la date de création, la date de modification, le type de données, la longueur, les noms de champs et les informations structurelles. Les métadonnées commerciales fournissent un contexte sur l'origine de la donnée (sa lignée), sur les personnes qui doivent l'utiliser et sur les objectifs poursuivis.
Comment un catalogue de données favorise la gouvernance données
L'existence d'un catalogue de données améliore la conformité et la gouvernance en garantissant que toutes les données sont gérées par un responsable, qu'elles sont mises à jour régulièrement, qu'elles sont de haute qualité et qu'elles sont protégées par des mécanismes de sécurité basés sur les rôles. Des politiques spécifiques telles que les périodes de conservation, les exigences en matière de continuité des activités et la localisation géographique peuvent également être documentées dans le catalogue afin d'appliquer les contrôles de gouvernance appropriés.
Quelles applications en avantage ?
Les analystes, ingénieurs et scientifiques des données s'appuient sur des sources de données de haute qualité pour garantir la validité des résultats de leurs analyses et de leurs modèles d'apprentissage automatique. Les rapports de conformité réglementaire doivent utiliser des sources de données fiables sous peine d'échouer aux audits et de se voir infliger des amendes. Les systèmes d'informatique décisionnelle nelle (BI) peuvent utiliser le catalogue de données pour sélectionner des données à des fins de reporting et de visualisation. Les entrepôts de données et les lacs de données ont besoin d'informations techniques sur les sources de données pour créer des scripts d'intégration de données appropriés et programmer des rafraîchissements de données périodiques.
Avantages d'un catalogue de données
Les principaux avantages sont les suivants :
- Amélioration de la visibilité des données. Sans cela, les utilisateurs peuvent gaspiller leurs efforts en dupliquant les sources de données existantes.
- Aider les organisations à tirer le meilleur parti de leurs données. Le catalogue de données annonce les bonnes sources de données et encourage les utilisateurs à se concentrer sur des données de meilleure qualité.
- Confiance accrue dans les données grâce aux lignées métadonnées. Il aide les utilisateurs à prendre de meilleures décisions fondées sur les données en sachant d'où elles proviennent.
- Rendre les données plus accessibles aux utilisateurs grâce à la documentation des formats. L'intégration des données et les outils bi peuvent utiliser les informations de format contenues dans le catalogue pour traiter les champs en fonction du type de données documenté. Par exemple, ce n'est pas parce qu'un champ contient des chiffres qu'il ne s'agit pas d'un champ de caractères.
- Favoriser la qualité des données. Chaque Chief Data Officer (CDO) est concerné par l'amélioration de la qualité des données. Il peut contenir des mesures de qualité qui peuvent être utilisées pour démontrer l'amélioration de la qualité des données au fil du temps.
- Faire respecter la réglementation. Les auditeurs sont chargés de rechercher les lacunes en matière de conformité. Le catalogue facilite les audits en documentant les contrôles en place pour chaque ensemble de données soumis à l'application de la conformité réglementaire.
- Réduire la duplication inutile des données. Les copies frauduleuses de données non gérées, partagées sous forme de feuilles de calcul envoyées par courrier électronique sans métadonnées sur la provenance des données, sont une recette pour le désastre. Il atténue certains des risques associés au partage des données non géré partage des données.
- Réduire les coûts de gestion des données . Concentrer l'organisation sur l'utilisation de données de la plus haute qualité. Cela permet à l'organisation de se concentrer sur un nombre réduit de sources de données, réduisant ainsi le coût global de gestion des données.
- Encourager la gestion des données. Chaque ensemble de données devrait être associé à une personne ou à une équipe chargée d'en maintenir la qualité et l'actualité. La mise en place d'un catalogue de données améliore votre gestion des données en facilitant l'accès, la mise à jour et la gestion des ensembles de données dont ils sont responsables.
- Assurer la gouvernance données : Les catalogues de données peuvent améliorer vos efforts de gouvernance données en fournissant à l'organisation une source centralisée de métadonnées qui signale les sources de données mal gouvernées.
catalogue de données Types
Nous considérons généralement le catalogue comme une ressource destinée à une seule entreprise. Il existe un nouveau type de catalogue de données ouvert qui profite à plusieurs entreprises et organisations. En voici quelques exemples :
- La Financial Industry Regulatory Authority (FINRA) a partagé un catalogue de données qui stocke des métadonnées techniques pour les consommateurs de leurs ensembles de données externes.
- La Banque mondiale a conçu un catalogue de données pour faciliter l'utilisation de ses données sur le développement.
- Le département britannique HMRC (His Majesty's Revenue and Collections) a publié son catalogue de données, un inventaire des ensembles de données que HMRC détient et traite pour la consommation publique.
La plateforme de données Actian
La plateforme de données Actian peut être utilisée pour support plusieurs magasins de données qui peuvent être enregistrés dans un catalogue de données. Pour une flexibilité totale du déploiement entrepôt de données, la plateforme de données Actian peut être hébergée sur site ou sur plusieurs plateformes en nuage. Elle peut être utilisée pour fournir des métadonnées associées aux objets de la base de données, ce qui facilite la recherche et l'utilisation des données.
Un catalogue de données aide les utilisateurs à trouver les données d'une organisation en fournissant des métadonnées enrichies.
Le catalogue de données permet à une organisation de guider les utilisateurs vers les données de la plus haute qualité et les plus fiables de l'entreprise. Il améliore la gouvernance données, car les données non gouvernées peuvent être omises ou signalées comme une source de mauvaise qualité. La prolifération des données est un problème majeur pour de nombreuses organisations, car les utilisateurs créent souvent des copies de données qu'ils ne maintiennent pas ou qu'ils ne rafraîchissent pas. Le catalogue de données guide les utilisateurs vers des sources de données fiables et bien entretenues. Les décisions basées sur des données obsolètes peuvent avoir de mauvaises conséquences. Sans lui, une entreprise peut perdre beaucoup de temps et d'efforts à rechercher les données nécessaires, ce qui a un impact sur la productivité et la rentabilité.
Principaux enseignements