Data Analytics Hub - Mieux qu'un Data Lake ou un Analytics Hub ?
Actian Corporation
25 février 2021

Et pourquoi est-ce mieux qu'un Data Lake ou un Analytics Hub ?
Dans le premier article de cette série de blogs -Lacs de données, entrepôts de données et concentrateurs de données : Avons-nous besoin d'un autre choix ? j'explique pourquoi la simple migration de ces plateformes d'intégration, de gestion et d'analyse de données sur site vers le cloud ne permet pas de répondre pleinement aux besoins modernes en matière d'analyse de données. En comparant ces trois plateformes, il apparaît clairement que si elles répondent toutes à certains besoins essentiels, aucune d'entre elles ne répond aux besoins des utilisateurs finaux de l'entreprise sans un support important de la part du service informatique. Ce dont nous avons besoin, c'est d'une plateforme qui combine les éléments opérationnels et analytiques optimaux de ces plateformes avec des caractéristiques et des fonctionnalités qui répondent directement aux besoins opérationnels en temps réel et en libre-service des utilisateurs professionnels (plutôt que des informaticiens).
Étant donné que la mise en œuvre actuelle des hubs de données, des lacs de données et des entrepôts de données n'intègre ni n'identifie efficacement les besoins combinatoires et analytiques des utilisateurs du monde réel, on pourrait penser qu'un terme plus simple et plus descriptif, tel que "hub analytique", permettrait d'orienter l'attention dans la bonne direction. Malheureusement, il s'agit là d'un de ces sentiers qui ne mènent qu'à la déception et à l'introspection.
Pourquoi ne pas l'appeler simplement "hub analytique" ?
En d'autres termes, le terme est déjà utilisé de manière peu judicieuse. Certains centres d'analyse se concentrent sur la consolidation de petits ensembles de données disparates (tels que ceux contenus dans des feuilles de calcul Excel et d'autres sources) qu'un scientifique des données pourrait vouloir exploiter. D'autres centres d'analyse peuvent accéder à des sources de données disparates et les analyser, mais uniquement dans les limites de l'outil en question et pour une consommation immédiate. Peu de ces offres sont capables de traiter des requêtes de plusieurs téraoctets, en moins d'une seconde, et d'effectuer des analytique avancée complexes en tant que charges de travail opérationnelles.
En effet, ces hubs analytiques fonctionnent comme des commutateurs et non comme de véritables hubs, comme le fait le hub de données mal catégorisées. Il n'y a pas de persistance des données au point d'unification et dépend d'un entrepôt de données externe ou d'un lac de données pour stocker et fournir des données d'entrée. Il n'y a pas d'effort pour conserver les données provenant de multiples projets, utilisateurs et utilisations à long terme. La seule qualité centrale et rédemptrice de ces centres d'analyse est le fait qu'ils sont destinés utilisateur analystes d'entreprise, aux scientifiques des données d'entreprise et à d'autres utilisateurs puissants du même genre. Par conséquent, les centres d'analyse se concentrent sur des menus déroulants simples, évitent le codage pour l'accès aux données et autorisent le libre-service, en particulier pour les fichiers de collecte qui sont de toute façon largement sous le contrôle de l'utilisateur utilisateur .
Pour obtenir des informations en temps réel complètes et informations en temps réel à partir de l'analyse, les utilisateurs ont besoin d'une image consolidée unique de toutes les données pertinentes. Ces données doivent ensuite être présentées pour être analysées par de nombreuses parties prenantes différentes utilisant de nombreux outils différents. Le point d'unification des données doit équilibrer les données disparates ET les outils d'analyse disparates. Les centres d'analyse ont tendance à ne pas gérer plus de deux entrées et sorties différentes à un moment donné, sans parler de la curation des données.
Appelez-le plutôt "hub" d'analyse de données
Quel type de plateforme pourrait faire cela ? Appelons-la " hub" d'analyse de données.
Cela peut sembler un raffinement évident, mais il s'avère que l'évidence n'est pas toujours aussi évidente. Des termes comme "data hub", "data lake" et "data warehouse" ont tous des fréquences de recherche de l'ordre de dizaines ou de centaines de milliers par mois. Le terme "data analytics hub" a une fréquence de recherche mensuelle inférieure à celle des années que j'ai passées sur cette planète. Je me suis donné pour mission de changer cela. Étant donné la relative obscurité du terme, je pense qu'il est important d'explorer ce qu'est un hub d'analyse de données, en quoi il diffère d'un "hub d'analyse", et pourquoi il est meilleur pour l'analyse moderne que n'importe laquelle des options susmentionnées.
Un hub d'analyse de données tire des éléments des quatre technologies ci-dessus (et si vous n'avez pas lu le premier blog de cette série et que vous ne connaissez pas les différences entre les hubs de données, les lacs de données et les entrepôts de données, je vous encourage à prendre huit minutes pour y retourner et le lire).
- Comme un hub de données, un hub d'analyse de données fournit une connectivité à des sources de données disparates, à la fois en mode batch et en mode streaming . Cependant, contrairement à un hub de données, un hub d'analyse de données assure la persistance dans un dépôt en nuage. En outre, il assure la curation d'un ensemble diversifié de types de données disparates qui peuvent être ingérées à la fois en mode batch et en mode streaming avec un libre-service, des options à code faible à nul par le biais de menus déroulants pour les utilisateurs non informaticiens.
- Comme un lac de données, le dépôt stockage en nuage d'un hub d'analyse de données peut traiter tous les types de données et exploiter les normes industrielles pour le mouvement et l'analyse des données (à la Kafka et à la Spark). Cependant, contrairement au lac de données typique d'aujourd'hui, un hub d'analyse de données fournit également une structure et un support aux utilisateur finaux confrontés à des charges de travail de BI et d'analytique avancée grâce à l'utilisation de SQL (plus à la manière d'un entrepôt de données ). Par essence, il s'agit d'un hub bidirectionnel, qui prend en charge de multiples entrées et sorties, et qui résout toutes les permutations de données d'entrée et d'outils de sortie utilisés par un ensemble diversifié d'utilisateurs non informaticiens.
- En effet, un hub d'analyse de données fournit un support en aval (c'est-à-dire en direction de l'utilisateur final) pour la plupart des outils de BI, de reporting, de visualisation et d'analytique avancée . Cependant, contrairement aux hubs de données, aux lacs de données et aux entrepôts de données actuels, un hub d'analyse de données fournit des outils libre-service utilisateur qui permettent aux utilisateurs non techniques de relier n'importe quelle source de données à n'importe quel outil d'utilisateur final - sans nécessiter d'intervention informatique (que ce soit sur une base ponctuelle ou quotidienne).
En bref, un hub d'analyse de données combine les fonctions de collecte et d'analyse de données critiques de ces solutions bien connues, mais expose toutes ces fonctions de manière à ce que les utilisateurs professionnels clés puissent y accéder facilement et les incorporer dans des programmes et des processus. La figure ci-dessous présente une douzaine de fonctionnalités clés tirées de ces quatre technologies et regroupées en une seule plateforme intégrée.
En termes simples, il s'agit d'un entrepôt de données curatées doté de capacités de gestion et d'analyse qui agit comme un hub bidirectionnel pour des ensembles de données disparates et divers d'un côté et des outils d'analyse de l'autre, directement utilisables par les analystes commerciaux et les scientifiques des données pour générer rapidement et de manière itérative des informations.
Pourquoi un Data Analytics Hub est-il préférable à un Data Lake ?
Dans le dernier blog, j'ai suggéré en passant qu'il serait inexact d'assimiler Hadoop, le principal lac de données sur sur site , à AWS S3, Microsoft Azure ADLS et Google Cloud Store (les trois principaux référentiels de stockage dans le cloud public). Une comparaison plus pertinente serait entre le système de fichiers distribués Hadoop (HDFS) et ces référentiels basés sur le cloud , ainsi que les équivalents accessibles sur AWS/Azure/Google des composants fournis par Hadoop pour la gestion des données et des systèmes, les requêtes, la ML, etc. (notamment Yarn, Hive, MapReduce, Pig, Mahout, Flume, etc.) Une fois que vous avez dépassé la soupe alphabétique, oui, vous trouverez plusieurs options de bases de données différentes, un entrepôt de données, des versions renommées ou Embarqué de Kafka et Spark, un outil ETL séparé et l'outil d'analyse interne 'un fournisseur. L'avantage évident de cette solution est l'aspect économique du cloud. L'inconvénient, cependant, est que ce lac de données basé sur le nuage reste une plateforme complexe qui n'est navigable et utilisable que par les informaticiens et les développeurs.
Ne vous méprenez pas, il ne s'agit pas d'une diatribe contre l'Open Source. Intégrer l'Open Source dans une plateforme, en particulier pour des fonctionnalités devenues banales, est parfaitement logique. Tous les fournisseurs devraient le faire. Il ne s'agit pas non plus de critiquer le fait d'avoir une recommandation prescriptive sur les outils d'analyse avec lesquels votre plateforme fonctionne le mieux. Mais historiquement, ce type de plateforme a trop souvent sombré dans la désillusion. Elle devient impénétrable pour les utilisateurs finaux tels que l'analyste commercial et l'utilisateur expérimenté qui se spécialisent dans un secteur d'activité particulier et qui utilisent la science des données comme un outil pour donner un sens à leur activité.
En d'autres termes, une fois que vous êtes passé de la science pure à la science des données ou que vous en êtes au point où vous souhaitez utiliser des charges de travail BI traditionnelles, des rapports et des outils de visualisation pour obtenir des informations sur les charges de travail opérationnelles , un lac de données n'est pas la bonne plateforme. Vos utilisateurs finaux sont des analystes commerciaux, des utilisateurs chevronnés et des scientifiques des données qui ont besoin de surveiller et d'ajuster les processus déployés et en cours, qui exploitent l'IA/ML qu'eux-mêmes ou leurs cohortes ont conçu, et qui doivent être en mesure d'interagir avec les données et les analyses en en temps réel relatif (c'est-à-dire pas quand il est commode pour l'informatique de répondre).
Dans le prochain article de cette série de blogs, j'approfondirai les cas d'utilisation les plus judicieux pour un hub d'analyse de données. Oh, et je vais mettre fin à toutes les inquiétudes que vous pourriez avoir en pensant que je ne fais qu'évoquer la vision d'un fabuleux hub qui apparaîtra dans un avenir lointain. Je n'ai pas simplement inventé un nom pour quelque chose qui n'existe pas encore. Comme vous le verrez, un centre d'analyse de données existe déjà.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.