Gestion des données

Naviguer dans la gestion des données par le biais du stockage et de la gouvernance

Illustration numérique montrant un ensemble de fichiers pour illustrer la gestion des données

Les entreprises étant de plus en plus axées sur les données, les données qu'elles collectent et stockent prennent de plus en plus de valeur. Un processus d'entreprise peut être interne ou externalisé, mais les données et les métadonnées qu'il exploite définissent l'entreprise. Au fil du temps, les données qu'une entreprise crée et consomme deviennent son élément vital et son facteur de différenciation concurrentielle.

gestion des données est la pratique qui consiste à traiter les données comme une ressource précieuse pour l'entreprise. Les données doivent être gérées depuis leur création jusqu'au moment où elles ne sont plus considérées comme précieuses. L'Association pour la gestion gestion des données données (DAMA) est un organisme international pour les professionnels des données qui a une définition formelle de la gestion des données: "Le développement et l'exécution d'architectures, de politiques, de pratiques et de procédures afin de gérer efficacement les besoins d'une entreprise en matière de cycle de vie de l'information. Les fonctions commerciales manuelles se composent d'étapes de processus avec des branches qui support données associées. Les applications commerciales numériques consistent également en une série d'étapes de processus avec des branches et des données associées. La différence réside dans le fait que les données issues du processus commercial numérique peuvent être immédiatement réutilisées ou transformées pour ajouter de la valeur.

Protection des données

Les données étant une ressource précieuse, elles doivent être protégées. Voici trois aspects de la protection des données :

  1. Pour la gestion du stockage, les données doivent être protégées contre les défaillances des périphériques et les catastrophes naturelles afin d'assurer la continuité de l'activité. La technologie RAID permet de mettre en miroir les volumes de disques pour protéger les données.
  2. Les politiques et les contrôles de sécurité protègent les données contre la cybercriminalité, y compris le vol et les attaques par ransomware.
  3. Les systèmes de traitement des transactions et les systèmes de gestion des bases de données utilisent des schémas d'enregistrement des données et de verrouillage de la mémoire pour garantir que les insertions et les mises à jour sont protégées contre les pannes de courant et maintenir l'intégrité des données. Le stockage peut être adapté aux systèmes transactionnels en utilisant la technologie RAID pour maximiser le débit en répartissant les données sur plusieurs volumes physiques.

Gestion du stockage

La valeur commerciale des données peut varier dans le temps. La variation d'un taux de change ou du cours d'une action est d'une importance capitale pour les négociants, car elle a un impact sur les transactions financières. Dès que la valeur des données est mise à jour, la valeur précédente perd beaucoup de sa valeur. À l'époque où les ordinateurs centraux régissaient la gestion du stockage, les professionnels utilisaient des systèmes de gestion hiérarchique du stockage (HSM) pour sélectionner les supports de stockage en fonction de la valeur des données. Les données les plus fréquemment utilisées pouvaient être regroupées sur le bord interne des plateaux de disque pour obtenir les meilleures vitesses d'accès en réduisant la latence due au délai de rotation des plateaux de disque.

Le stockage principal du processeur ordinateur central était très petit par rapport aux normes d'aujourd'hui, de sorte que le disque à état solide (SSD) était au sommet de la hiérarchie de stockage, contournant le temps de recherche et les retards de rotation associés aux disques en rotation. Ensuite, dans la hiérarchie des performances, venaient les cylindres extérieurs de stockage sur disque, utilisés pour stocker des données moins critiques en termes de performances. Les utilitaires de disque optimisent périodiquement l'emplacement des données sur les cylindres du disque afin de minimiser le temps de recherche de la tête de lecture sur les cylindres. Lorsque les données perdaient de leur valeur ou se refroidissaient, elles étaient archivées dans des volumes de bandes magnétiques. Un logiciel de gestion des volumes cataloguait ce qui était stocké sur chaque volume de bande. Les volumes de bandes plus anciens étaient envoyés dans des archives hors site.

Aujourd'hui, le stockage en nuage est tarifé en fonction de la vitesse d'accès. Le cache du processeur est le plus cher. Vient ensuite la mémoire vive, puis le stockage sur disque SSD. Les disques en rotation constituent le niveau de stockage le moins coûteux. Les gestionnaires de stockage virtuel peuvent créer des volumes de disques qui ne sont pas limités à la capacité d'un seul périphérique physique et peuvent créer des bandes et des miroirs de données sous les couvertures.

Gestion du stockage pour un SGBD

Les systèmes de gestion de base de données (SGBD) peuvent utiliser des systèmes de fichiers ou des volumes de disques dédiés pour gérer le stockage en interne. Les systèmes de fichiers en grappe tels que Hadoop HDFS offrent un stockage évolutif en partageant un pool de disques entre plusieurs serveurs physiques, ce qui en fait un dépôt populaire pour les lacs de données. De nombreux systèmes de gestion de bases de données sont compatibles avec les clusters afin de traiter les requêtes en utilisant plusieurs serveurs physiques.

Un SGBD conserve les données les plus chaudes ou les plus fréquemment consultées dans la mémoire partagée, les caches L1 et L2 ou la mémoire vive principale. Pour préserver l'intégrité des données, toutes les écritures sont effectuées sur un support non volatile tel qu'un disque SSD ou un disque dur. Les transactions distribuées utilisent des mécanismes tels que la validation en deux phases pour s'assurer que toutes les écritures sont atomiques ou en une seule fois sur plusieurs nœuds. Des mécanismes de verrouillage de la mémoire ou de sémaphore garantissent qu'aucune écriture n'est écrasée avant d'être validée sur le disque.

Un SGBD effectue un archivage physique au niveau des blocs afin de conserver une copie de la base de données pour les sauvegardes et les restaurations opérationnelles. L'administrateur de la base de données peut également exporter des données au niveau d'un objet ou d'un schéma pour créer une copie logique d'une application de jeu de données. Le logiciel de réplication peut utiliser des déclencheurs de base de données pour intercepter les instructions SQL INSERT, UPDATE et DELETE et envoyer les mêmes instructions à une copie distante de la base de données. Les logiciels de capture des données de changement peuvent être utilisés pour gérer plusieurs objets de base de données liés d'une manière évolutif , généralement en recherchant les modifications dans les fichiers journaux.

Catalogues de données

Aujourd'hui gestion des données se concentre moins sur le stockage que sur la gouvernance données, en veillant à ce que les données utilisées par l'entreprise soient dignes de confiance. Le lignage des données permet de suivre leur origine et les catalogues de savoir quelles applications et quels utilisateurs les consomment. Cela permet de réduire le stockage de données redondantes et de promouvoir l'utilité des données. La gestion des données gère le cycle de vie des données, y compris leur stockage, leur utilisation et leur retrait.

gestion des données Avec Actian

La prolifération des données peut être éliminée en plaçant les capacités d'analyse des données là où elles sont stockées. Les données peuvent être stockées sur site ou sur différentes plateformes en nuage. La plateforme de données Actian facilite l'utilisation de vos données, où qu'elles se trouvent. Les données peuvent être chargées dans un entrepôt de données ou accessibles en tant que fichier externe une fois enregistrées dans un entrepôt de données. Les requêtes analytiques peuvent s'étendre à plusieurs instances, quel que soit l'endroit où elles se trouvent.