Gestion des données

Extraction de données : Guide ultime pour l'extraction de données à partir de n'importe quelle source

Des rangées de fichiers virtuels dans un catalogue de données, contribuant à une gestion des données puissante gestion des données

Extraction de données : Le guide ultime pour extraire des données de n'importe quelle source

L'extraction de données est un terme utilisé pour décrire le mouvement de données à partir d'un ensemble de données source. L'extraction de données est souvent la première étape d'un processus d'extraction, de transformation et de chargement(ETL) d'un pipeline de données. Les ingénieurs des données sont chargés d'effectuer l'extraction des données, d'alimenter les fonctions d'analyse des données et d'apprentissage automatique (ML).

partage des données

Il existe de nombreuses façons de partager des données à des fins d'extraction. Les données peuvent être sécurisées à l'aide du cryptage pour les protéger contre le vol au repos et en transit. Le modèle de publication et d'abonnement est un moyen de partager des données. Une méthode moins sophistiquée consiste à pousser les fichiers vers les sources de consommation à l'aide de protocoles tels que FTP et SFTP.

Les mécanismes de téléchargement permettent aux consommateurs de télécharger des données à partir d'un navigateur web en utilisant le protocole HTTP, de sorte que les administrateurs de réseau n'ont pas besoin d'ouvrir des sockets qui peuvent devenir un vecteur d'attaque potentiel pour les pirates informatiques. Le téléchargement à partir d'un site web crée un fichier du côté consommateur de la connexion, à l'intérieur du pare-feu.

Actian et l'extraction de données

La plateforme de données Actian offre une expérience unifiée pour l'ingestion, la transformation, l'analyse et le stockage des données. La plateforme de données Actian peut être configurée et chargée en quelques minutes seulement pour un accès instantané à vos données analytiques. L'intégration de données intégrée, les performances ultra-rapides et la flexibilité de déploiement dans plusieurs nuages ou sur site vous permettent d'analyser vos données quel que soit l'endroit où elles se trouvent.

Sources d'extraction de données

Une fois les données extraites, elles peuvent être nettoyées, transformées et chargées dans des bases de données analytiques. Voici quelques exemples de la manière dont les données sont extraites et organisées par type de source de données :

sauvegarder l'icône bleue

Dossiers plats

Les fichiers plats sont bidimensionnels et se composent d'octets de données. Les fichiers sont stockés dans un système de fichiers d'exploitation ou dans le magasin de fichiers d'un service en nuage. Un fichier est structuré comme un flux de bits avec des chaînes de caractères spéciales pour indiquer la fin du fichier (EOF) ou le saut de ligne (CRLF), ce qui permet de les représenter comme un ensemble d'enregistrements. Chaque enregistrement dans le fichier peut avoir une longueur fixe ou variable attribuée par la chaîne de caractères spéciaux CRLF. Une chaîne de délimitation sépare logiquement les champs d'un enregistrement. Par exemple, la chaîne de délimitation serait le caractère virgule dans un fichier CSV. Les utilitaires d'extraction de données comprennent ce format, ce qui facilite la lecture des fichiers plats. L'outil d'extraction de données lit le fichier champ par champ, en attribuant des types de données selon les instructions. Contrairement aux flux de données, les fichiers plats ont un cycle de vie plus défini : création, ouverture, ajout, fermeture et suppression.

La plupart des applications et des fonctions du système d'exploitation produisent des fichiers journaux utilisés pour la gestion des exceptions, l'audit et comme source de données analytiques. Les fichiers journaux sont généralement des fichiers plats. Comme ces fichiers sont souvent configurés avec des périodes de rétention limitées pour économiser de l'espace de stockage, ils doivent être extraits avant l'expiration de la période de rétention ou écrasés.

icône de graphique à barres bleues pour actian

Flux de données

Les flux de données diffèrent des fichiers plats car ils n'ont pas de fin, de sorte qu'une fois ouverts, l'utilitaire d'extraction de données continuera d'attendre d'autres données. Les données en flux sont gérées par des applications de gestion telles qu'Apache Kafka, qui ingère la source du flux de données et la stocke dans une file d'attente à laquelle les chargeurs de données ou les outils d'intégration de données s'abonnent. Au fur et à mesure que les données sont créées, elles sont ingérées et mises à la disposition des applications consommatrices par l'intermédiaire du gestionnaire de flux. Cette publication dans le système d'abonnement permet de réduire les coûts d'administration et d'économiser beaucoup de codage du côté de l'application consommatrice.

Certaines applications doivent être informées immédiatement des changements, comme les systèmes de négociation boursière et les systèmes de conduite automatisée ; cependant, la plupart des systèmes peuvent tolérer un court délai. Plutôt que d'être informé de chaque changement, ce qui peut être coûteux pour les ressources du processeur , il est souvent préférable de concevoir des systèmes consommateurs pour extraire les données périodiquement par lots ou micro-lots. Ce type d'extraction de données permet aux serveurs consommateurs de ne pas être submergés par les flux de données qu'ils consomment. Toutes les applications n'ont pas la tolérance nécessaire pour les délais, c'est pourquoi les charges de travail en streaming sont souvent hébergées dans des environnements en nuage.

Icône de couche bleue pour Actian

Applications

Toutes les applications sont conçues pour recevoir des données, les traiter et produire les données résultantes. Les applications anciennes ont tendance à utiliser des formats de données non standard, de sorte que les développeurs doivent lire les données à partir du fichier plat contenant le rapport de sortie, par exemple. Les applications web modernes sont conçues pour être utilisées dans des systèmes plus importants. Elles utilisent généralement des formats standard d'auto-description tels que JSON, qui contient des métadonnées telles que des noms de champs, des formats et des informations sur la longueur.

icône bleue de la base de données

Bases de données

Les données peuvent être extraites des bases de données de trois manières : en écrivant une application personnalisée, en utilisant un outil d'exportation de données ou en utilisant une interface fournie par le fournisseur, telle que ODBC. La plupart des fournisseurs de bases de données incluent un utilitaire d'exportation qui décharge les données dans un fichier plat. Les données peuvent être exportées dans un format délimité par des virgules pour une portabilité maximale. Les programmes pilotes tels que ODBC et JDBC fournissent une interface de programmation d'applications (API) aux développeurs et aux outils d'intégration de données.

Les données peuvent être extraites des bases de données pour une plus grande agilité opérationnelle, par exemple en maintenant des répliques mises à jour de manière asynchrone afin que les bureaux répartis dans le monde entier ou les points de vente régionaux disposent de la copie locale qui leur permet de travailler de manière autonome. Dans ce cas, les systèmes de capture de journaux tels que les systèmes de capture de données de changement (CDC) comme HVR sont utilisés pour extraire et distribuer les données.

Une autre raison majeure d'extraire des données d'une base de données est la sauvegarde et la récupération pour maintenir la continuité de l'activité. Dans ce cas, les données peuvent être extraites sous forme de blocs physiques, en contournant la couche SQL pour obtenir un débit maximal.