Analyse des données

Analyser et agir sur les données transactionnelles avec un entrepôt de données opérationnel

Actian Corporation

13 septembre 2018

SQLite - Transactions

Nous entendons tous dire que les entreprises avant-gardistes, petites et grandes, doivent être davantage axées sur le client, voire obsédées par le client, pour réussir dans ce monde hyperconcurrentiel. Les données permettent de connaître les besoins et les comportements de vos clients, ce qui vous permet d'adapter activement vos messages et vos offres pour vous démarquer de la concurrence et gagner leur confiance. Ces connaissances proviennent d'une variété croissante de sources 24 heures sur 24 et 7 jours sur 7, de systèmes numériques et, de plus en plus, d'une multitude de capteurs, d'appareils et d'applications mobiles qui suivent ces activités. Il est donc impératif de mettre en place une infrastructure permettant d'exploiter rapidement ces informations périssables afin d'influencer le moment et la manière dont vous vous engagez auprès de vos clients. Pour ce faire, il faut adopter une nouvelle approche de la gestion des données dans l'instant, que nous appelons un entrepôt de données opérationnel (ODW). Un ODW peut aller au-delà de l'établissement de rapports sur des données historiques et statiques et peut au contraire fonctionner avec des données fraîches et actives pour conduire des actions commerciales spécifiques - au moment où elles se produisent.

Les entreprises disposent déjà d'un certain nombre de solutions pour obtenir des informations analytiques, qu'il s'agisse de systèmes de bases de données relationnelles, d'entrepôts de données d'entreprise ou de lacs de données, au sein de leurs centres de données ou, de plus en plus, dans l'informatique dématérialisée. Les solutions existantes impliquent généralement des compromis importants qu'un entrepôt de données opérationnel peut surmonter.

Prenons l'exemple de l'entrepôt de données d'entreprise traditionnel, qui existe depuis des décennies. Il s'agit d'une méthode éprouvée pour gérer les données historiques, fournir des mises à jour par lots, prendre en charge des cycles de reporting réguliers et servir de source unique de vérité pour l'entreprise. Cependant, il s'agit généralement d'une solution coûteuse, surtout s'il faut mettre à niveau le matériel, augmenter la capacité, ajouter de nouveaux types de données et moderniser l'accès. Un EDW soigneusement géré par le service informatique dans un souci de gouvernance et de maîtrise des coûts exige que les nouveaux rapports soient soumis à un processus de modification formel qui peut ralentir le développement. Si un EDW gère bien les charges de travail planifiées, il est peu performant pour les requêtes ad hoc, ce qui rend difficile la découverte de données et la génération d'analyses exploitables sans impact sur les charges de travail de reporting existantes.

Une autre option pour certains est un magasin de données opérationnel qui offre une plus grande flexibilité des données et un environnement séparé pour permettre une analyse ad hoc, mais qui se concentre généralement de manière rigide sur un domaine ou un type de données et n'est pas complet. Comme un EDW, il peut ne pas être optimisé pour les performances des requête analytiques interactives nécessaires à la découverte.

Les lacs de données sont considérés par beaucoup comme une solution plus économique et évolutif , avec un stockage pour de nombreuses sources et types de données. Cependant, ils peuvent devenir un dépotoir de données dont la gouvernance et la validation laissent à désirer. Son héritage architectural, conçu pour une ingestion de données facile et flexible ingestion de données , se traduit à son tour par des performances de requête lentes, unesimultanéité utilisateur médiocre et des résultats imprévisibles.

Le dernier objet brillant à apparaître est la base de données analytique en nuage, qui promet un stockage et des performances économiques ainsi qu'un déploiement élastique illimité. En réalité, ces solutions "cloud-only" peuvent entraîner des coûts de calcul élevés ou imprévisibles, des options de déploiement limitées avec un fort potentiel de verrouillage des fournisseurs/architectures/données, ainsi qu'une gestion et des outils relativement nouveaux et immatures. Existe-t-il une meilleure solution ?

La solution idéale pour l'analyse opérationnelle présenterait toutes les meilleures caractéristiques des alternatives mentionnées ci-dessus, sans aucune de leurs lacunes. Cette nouvelle approche devrait être :

  • Rapide - L'architecture sous-jacente serait optimisée pour les performances des requête analytiques et ne nécessiterait que peu ou pas de réglages en prévision de certaines charges de travail (comme l'indexation ou les agrégations), ce qui maximiserait la variété des charges de travail qu'elle pourrait support.
  • évolutif - Il s'adapterait à de grandes capacités de données grâce à une couche de stockage économique et flexible, en se connectant à une variété de sources de données existantes et nouvelles.
  • Flexible - Il offrirait des options de déploiement flexibles, sur site ou sur différentes plateformes en nuage.
  • Actuel - Il doit être capable d'effectuer des mises à jour en temps quasi réel à partir des systèmes opérationnels afin de rester en phase avec l'activité, sans ralentir les performances des requêtes analytiques en cours.
  • Robuste - Il offre une sécurité, une fiabilité et une facilité de gestion au niveau de l'entreprise.
  • Sécurisé - Il offrirait un certain nombre de mécanismes de protection des données pour répondre aux exigences de sécurité des entreprises et se conformer à des environnements réglementaires plus stricts.

Ces caractéristiques définissent ce que nous appelons un entrepôt de données opérationnel. Avec une telle solution, vous disposeriez d'un système de base de données capable de fournir des informationsinformations en temps réel dans l'entreprise pour une variété d'utilisateurs, des scientifiques des données aux analystes commerciaux. Il support découverte de données et l'analyse ad hoc en libre-service en utilisant les données opérationnelles les plus récentes, sans alourdir les systèmes transactionnels et les charges de travail.

La base de données analytique Actian Vector a été conçue dès le départ pour devenir un entrepôt de données opérationnel, permettant d'exploiter les données dans l'instant. Non seulement elle est rapide, évolutif et flexible, mais elle est également prête pour la production avec une sécurité, une administration et une gestion des ressources matures.

Vector est la base de données analytique la plus rapide disponible sur les serveurs standards de l'industrie, sur site ou dans le nuage. L'objectif initial était d'exécuter le code SQL aussi rapidement que s'il était écrit en code C optimisé, en tirant parti des instructions vectorisées des unités centrales standard ainsi que d'un format de données en colonnes pour traiter les requêtes analytiques plus efficacement. Il a atteint cet objectif et bien plus encore, accumulant au cours des six dernières années un nombre impressionnant de résultats de référence enregistrement. De plus, Vector n'a pas besoin de réglages ou d'optimisations spécifiques, comme l'indexation et le réglage, ce qui lui confère d'emblée d'excellentes performances. Vector est donc idéal pour ladécouverte de données ad hoc en libre-service , avec des performances interactives et des temps de cycle réduits pour une itération plus rapide, et sur des ensembles de données complets, et non des échantillons.

Vector offre une évolutivité allant d'un serveur unique à des clusters de centaines de nœuds, en utilisant le système de fichiers distribués Hadoop et YARN pour gérer les ressources et distribuer la charge de travail à l'endroit où les données sont stockées. Vector gère des données de l'ordre du Go au To et au Po, et s'adapte à un nombre d'utilisateurs simultanés bien supérieur à celui des autres solutions MPP.

Vector a hérité de l'infrastructure administrative des produits SGBDR transactionnels plus établis d'Actian, en tirant parti de la maturité éprouvée de la planification des requête , de l'optimisation des requête , de l'ingestion de données, de la qualité des données, de la sécurité, de la fiabilité et de la facilité de gestion. Actian DataFlow complète parfaitement Vector en ajoutant un contrôle plus rapide et plus intuitif de l'ingestion de données et des flux de travail analytiques, y compris une interface utilisateur graphique optimisée par KNIME, qui facilite la création et l'optimisation des charges de travail de requête .

L'analyse peut fournir les meilleures informations avec des données actuelles, mais la plupart des solutions analytiques prévoient des mises à jour par lots et des schémas d'accès en écriture unique et en lecture multiple qui ne peuvent pas support changements fréquents. Vector utilise une technique brevetée appelée arbres delta positionnels pour gérer les mises à jour des données existantes sans impacter les performances de la requête , ce qui permet aux analyses d'intégrer des mises à jour régulières et fréquentes afin de fournir les informations les plus récentes sur votre activité.

Avec l'avènement de la GDPR, nous avons constaté une attention accrue à la confidentialité et à la sécurité. Les versions de Vector incluent toutes les capacités requises pour support un déploiement conforme au GDPR, et des ajouts récents facilitent l'administration et le développement de solutions sécurisées. Par exemple, le masquage des données garantit que seuls les utilisateurs autorisés peuvent voir les données sous-jacentes, tandis que les autres ne peuvent voir qu'une valeur masquée.

Vector offre un large éventail d'options de déploiement , fonctionnant sur des serveurs standard sous Linux ou Windows, et prenant également en charge différentes distributions Hadoop pour s'adapter aux clusters ou à l'infrastructure en nuage. Vector prend également en charge un large éventail d'options de stockage, réduisant ainsi tout blocage technologique pour votre entrepôt de données opérationnel.

Essayez Vector dès aujourd'hui sur AWS Marketplace et découvrez ce qu'un entrepôt de données opérationnel d'Actian peut faire pour vous !

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.