Réussir l'intégration et l'analyse des données
L'intégration des données permet de relier des sources de données disparates afin de support prise de décision au sein de l'entreprise. Les solutions d'intégration de données peuvent inclure les fonctions suivantes :
- Les fonctions d'extraction, de transformation et de chargement(ETL) permettent de connecter, de rassembler, de nettoyer et de transférer des données vers un data mart ou un data warehouse à des fins d'analyse.
- La technologie ELT (Extract, Load and Transform) permet de filtrer, de transformer et d'agréger des ensembles de données à l'intérieur d'un entrepôt de données.
- Réplication des changements d'un système opérationnel vers un entrepôt de données.
- pipeline de données l'orchestration.
- Programmation du transfert de données.
- La déduplication des données et le comblement des lacunes dans les données à l'aide de valeurs par défaut, d'extrapolation et d'interpolation.
Stratégie d'intégration des données
En utilisant une stratégie commune d'intégration des données, une organisation peut réduire les coûts de gestion des intégrations de données ad-hoc point à point. Une approche unifiée présente des avantages :
- Accélère le déploiement des connexions de données.
- Fournit des connexions plus robustes.
- Favorise la réutilisation.
- Réduit les coûts de maintenance.
Les départements qui exploitent des silos de données peuvent être à l'origine de données dupliquées et d'un gaspillage d'efforts. L'adoption d'une approche par plate-forme améliore la visibilité des flux de données au sein d'une entreprise. Le fait de disposer d'un lieu unique pour gérer les intégrations permet à une organisation de démêler les interconnexions complexes en hubs ou bus de données et d'obtenir une vue d'ensemble des flux de données. Alors que de nouvelles sources de données telles que les flux de clics et les flux de capteurs doivent être adoptées, une plateforme d'intégration offre de l'évolutivité sans introduire de coûts de gestion écrasants.
Intégrer la qualité des données
La création de données fiables pour l'analyse implique le suivi des sources de données et l'utilisation des données les plus fiables. Les règles de validation des données comblent les lacunes, vérifient la cohérence des formats des différents champs de données et assurent l'intégrité référentielle des relations entre les éléments de données.
Les utilitaires de profilage des données permettent de valider la qualité des données, et les fonctions de transformation des données les rendent plus uniformes avant de les charger dans une plate-forme de données cible. La parallélisation des opérations sur les données volumineuses peut accélérer le transfert et la transformation.
Une solution d'intégration de données robuste surveille les transferts et signale toute exception avant que les données ne soient utilisées pour la prise de décision.
Intégration des données dans le nuage
Les outils d'intégration de données ont évolué pour support applications basées sur le cloud. De nombreuses solutions sont nées avec une orientation cloud-native ou cloud-first, tandis que d'autres ont adopté le cloud au fur et à mesure de leur évolution, alors qu'elles étaient initialement sur site. De nombreuses solutions support déploiement hybride, de sorte que les développeurs peuvent facilement utiliser des données résidant sur site et dans des plateformes de cloud public. Les outils modernes offrent une interface utilisateur graphique permettant de concevoir visuellement les flux de données afin de gagner du temps.
Intégration des données pour les lacs de données
Dans le passé, le terme "big data" était souvent synonyme d'Apache Hadoop et de son système de fichiers en grappe. Aujourd'hui, Hadoop perd de son attrait car les fournisseurs de services en nuage offrent un stockageévolutif à un niveau plus abstrait en utilisant le stockage en bloc sans avoir à gérer une grappe de serveurs.
Les systèmes de donnéesStreaming tels qu'Apache Kafka support sources de données qui doivent partager des flux continus. Les solutions de capture des données de changement (CDC) telles que la réplication à haut volume (HVR) support déplacer les données - des lacs de données et des bases de données transactionnelles vers les entrepôts de données/plates-formes de données. La technologie CDC peut être configurée pour permettre des flux de données bidirectionnels. Les conflits de données sont détectés et résolus à l'aide de règles telles que l'utilisation de la valeur de données avec l'horodatage le plus récent.
Intégration étendue des données
Certaines plates-formes d'intégration de données haut de gamme incluent des fonctionnalités de support gouvernance données, notamment la possibilité de retracer les données jusqu'aux sources brutes à l'aide de la provenance des données et des fonctions de catalogue qui suivent la manière dont les utilisateurs et les applications consomment les données. Ces fonctions étendues permettent à une entreprise de retirer les intégrations les moins utilisées et de mieux consolider ou réutiliser les intégrations existantes.
De nombreuses bases de données, telles que Ingres, SQL Server et Oracle, fournissent leurs propres services d'intégration et fonctionnent avec des outils d'intégration de données spécialisés.
Exemples d'intégration de données
Voici quelques cas d'utilisation de la réplication de données :
- Les détaillants utilisent la réplication des données pour publier les prix actualisés des produits dans les magasins et, inversement, pour recevoir les données de vente des magasins à des fins d'analyse dans les entrepôts de données/plateformes de données.
- Les systèmes mondiaux d'information financière utilisent la technologie CDC pour extraire les données des systèmes comptables nationaux en vue de leur publication au niveau régional et réglementaire.
- Les opérateurs de réseaux de téléphonie mobile utilisent les journaux d'appels locaux des tours cellulaires pour gérer la qualité de service (QoS) sur leurs réseaux.
- Les entreprises de transport équipent leurs véhicules de capteurs GPS afin de collecter des données de localisation en temps réel et d'optimiser les itinéraires.
- Les compagnies d'assurance utilisent l'intégration des données en plusieurs étapes pour fournir des rapports locaux aux succursales dans un format uniforme. La consolidation de ces informations au siège permet aux équipes de vente de disposer de références sectorielles qui différencient les services de gestion des polices.
- La recherche médicale utilise l'intégration des données pour collecter les données des essais cliniques qui sont agrégées et publiées de manière centralisée. Cela permet une collaboration à travers le monde pour lutter contre les maladies.
Intégration des données à l'aide des solutions Actian
La plateforme de données Actian prend en charge bon nombre des cas d'utilisation susmentionnés. La plateforme de données Actian est dotée de connecteurs intégrés à des centaines de sources de données, y compris des applications basées sur l'informatique en nuage comme Salesforce et NetSuite. Un adaptateur universel facilite la création d'interfaces personnalisées pour les applications patrimoniales, ce qui permet de gérer facilement les tâches d'intégration existantes ainsi que les nouvelles.