Intelligence des données

Google Goods : L'outil de gestion et de démocratisation des données de Google

Actian Corporation

10 avril 2019

biens de google

Quand on s'appelle Google, la question des données est plus que centrale. Une quantité colossale d'informations est générée chaque jour dans le monde entier, par toutes les équipes de cet empire américain. Google Goods, un catalogue de données catalogue de donnéesa été mis en place pour croiser, hiérarchiser et unifier les données.

Cet article fait partie d'une série consacrée aux entreprises pilotées par les données. Nous mettons en lumière des exemples réussis de démocratisation et de maîtrise des données au sein d'entreprises inspirantes. Vous pouvez retrouver l'exemple d'Airbnb ici. Ces entreprises pionnières témoignent de l'ambition de Zeenea et de son catalogue de données: aider les organisations à mieux comprendre et utiliser leur patrimoine de données.

Google en quelques chiffres

Le moteur de recherche le plus utilisé de la planète n'a plus besoin d'être présenté. Mais que se cache-t-il derrière cette interface familière ? Que représente Google en termes de parts de marché, d'infrastructures, d'employés et de présence mondiale ?

En 2018, Google avait [1] :

  • 90,6 % de part de marché au niveau mondial.
  • 30 millions de sites indexés.
  • 500 millions de nouvelles demandes chaque jour.

En termes d'infrastructures et d'emplois, Google représentait en 2017 [2] :

  • 70 053 employés.
  • 21 bureaux dans 11 pays.
  • 2 millions d'ordinateurs dans 60 centres de données.
  • 850 téraoctets pour mettre en cache toutes les pages indexées.

À une telle échelle, la quantité de données générées est inévitablement énorme. Face à la redondance constante des données et au besoin de précision pour leur utilisation, Google a mis en place Google Goods, un catalogue de données qui travaille en coulisse pour organiser et faciliter la compréhension des données..

Les idées qui ont conduit à Google Goods

Google possède plus de 26 milliards de données internes [3]. Et cela n'inclut que les données accessibles à tous les employés de l'entreprise.

Si l'on tient compte des données sensibles qui utilisent un accès sécurisé, ce chiffre pourrait doubler. Cette quantité de données ne pouvait qu'engendrer des problèmes et des questions, ce qui a motivé la conception de l'outil de Google :

Une énorme échelle de données

Compte tenu des chiffres mentionnés précédemment, Google était confronté à un problème incontournable. La quantité et la taille des données ne permettaient pas de les traiter toutes.... Il était donc essentiel de déterminer celles qui sont utiles et celles qui ne le sont pas.

Le système exclut déjà certaines informations jugées inutiles et parvient à identifier certaines redondances. Il est donc possible de créer des des routes d'accès uniques à travers les données sans qu'elles soient stockées à différents endroits dans le catalogue..

Variété des données

Les ensembles de données sont stockés dans un certain nombre de formats et dans des systèmes de stockage très différents. Il est donc difficile d'unifier les données. Pour les marchandises, il s'agit d'un véritable défi avec un objectif crucial : fournir un moyen cohérent de requête et d'accéder à l'information sans révéler la complexité de l'infrastructure.

Pertinence des données

Google estime qu'un million de données sont créées et effacées chaque jour. Cela souligne la nécessité de hiérarchiser les données et d'établir leur pertinence. Certaines sont cruciales dans les chaînes de traitement mais n'ont de valeur que pendant quelques jours, d'autres ont une fin de vie programmée qui peut durer de plusieurs semaines à quelques heures.

La nature incertaine des métadonnées

De nombreuses données cataloguées proviennent de différents protocoles, ce qui rend la certification des métadonnées complexe. Les marchandises procèdent donc par essais et erreurs pour créer des hypothèses. Ceci est dû au fait qu'il fonctionne sur une base post hoc. En d'autres termes, les collaborateurs ne doivent pas changer leur façon de travailler. Il ne leur est pas demandé de combiner des ensembles de données avec des métadonnées au moment de leur création. C'est aux marchandises de travailler, de collecter et d'analyser les données pour les rassembler et les clarifier en vue d'une utilisation future.

Une échelle de priorités

Après avoir travaillé sur la découverte et le catalogage, la question de la priorisation se pose. La difficulté réside dans la capacité à répondre à cette question : "Qu'est-ce qui fait qu'une donnée est importante ?" Répondre à cette question est beaucoup moins simple pour les données d'une entreprise que de hiérarchiser les recherches sur le web, par exemple. Pour tenter d'établir un classement pertinent, les marchandises sont basé sur les interactions entre les données, les métadonnées et d'autres critères.. Par exemple, l'outil considère qu'une donnée est plus importante si son auteur y a associé une description, ou si plusieurs équipes la consultent, l'utilisent ou l'annotent.

Analyse sémantique des données

La réalisation de cette analyse permet notamment de mieux classer et décrire les données dans l'outil de recherche. Il peut ainsi répondre à la bonne information demandée dans le catalogue. L'exemple est donné dans l'article de référence de Google Goods [3] : Supposons que le schéma d'un ensemble de données soit connu et que certains champs du schéma prennent des valeurs entières. Grâce à l'inférence sur le contenu du jeu de données, l'utilisateur peut identifier que ces valeurs entières sont des ID de repères géographiques connus et utiliser ce type de sémantique de contenu pour améliorer la recherche de données géographiques dans l'outil.

Caractéristiques des biens de Google

Google Goods répertorie et analyse les données pour les présenter de manière unifiée. L'outil recueille les métadonnées de base et tente de les enrichir en analysant un certain nombre de paramètres. En revisitant de manière répétée les données et les métadonnées, Goods est capable de s'enrichir et d'évoluer.

Les principales fonctions offertes aux utilisateurs sont les suivantes

Un moteur de recherche

Comme le Google que nous connaissons, Goods propose un moteur de recherche par mot-clé pour requête un jeu de données. C'est à ce moment que se pose le problème de la hiérarchisation des données. Le moteur de recherche propose des données classées selon différents critères tels que le nombre de chaînes de traitement impliquées, la présence ou l'absence d'une description, etc.

Page de présentation des données

Chaque donnée dispose d'une page contenant le plus d'informations possible. En considération du fait que certaines données peuvent être liées à des milliers d'autres, Google compresse en amont les données reconnues comme les plus cruciales pour les rendre plus compréhensibles sur une page de présentation. Si la version compressée reste trop volumineuse, les informations présentées ne conservent que les entrées les plus récentes.

Conseils d'équipe

Les marchandises ont créé des tableaux pour distribuer toutes les données générées par une équipe. Cela permet par exemple d'obtenir différentes métriques et de se connecter à d'autres tableaux. Le tableau est mis à jour chaque fois que Goods ajoute des métadonnées. Le tableau peut être facilement intégré dans différents documents afin que les équipes puissent ensuite le partager.

En outre, il est également possible de mettre en place des actions de surveillance et des alertes sur certaines données. Goods est en charge des vérifications et peut avertir les équipes en cas d'alerte.

Utilisation de biens par les employés de Google

Au fil du temps, les équipes de Google se sont rendu compte que l'utilisation de son outil et sa portée n'étaient pas nécessairement conformes aux attentes de l'entreprise.

Google a ainsi pu déterminer que les principales utilisations et les caractéristiques préférées des produits par les employés étaient les suivantes :

Tampons du protocole d'audit

Les tampons de protocole sont des formats de sérialisation avec un langage de description d'interface développé par Google. Il est largement utilisé par Google pour le stockage et l'échange de toutes sortes de structures d'information.

Certains processus contiennent des informations personnelles et font l'objet de politiques de confidentialité spécifiques. L'audit de ces protocoles permet d'alerter les propriétaires de ces données en cas de violation de la confidentialité.

Récupération des données

Les ingénieurs sont amenés à générer de nombreuses données dans le cadre de leurs essais et oublient souvent leur emplacement lorsqu'ils ont besoin d'y accéder à nouveau. Grâce au moteur de recherche, ils peuvent les retrouver facilement.

Comprendre le code hérité

Il n'est pas facile de trouver des informations actualisées sur le code ou les ensembles de données. Goods gère les graphiques que les ingénieurs peuvent utiliser pour suivre les exécutions précédentes du code ainsi que l'entrée et la sortie des ensembles de données et trouver la logique qui les relie.

Utilisation du système d'annotation

Le système de signets des pages de données est entièrement intégré pour trouver rapidement les informations importantes et les partager facilement.

Utilisation des marqueurs de page

Il est possible d'annoter les données et de leur attribuer différents degrés de confidentialité. Cela permet aux autres employés de Google de mieux comprendre les données qu'ils ont sous les yeux.

Avec Goods, Google parvient à hiérarchiser et à unifier l'accès aux données pour toutes ses équipes. Le système se veut non intrusif et fonctionne donc en continu et de manière invisible pour les utilisateurs afin de leur fournir des données organisées et explicites. Grâce à cela, l'entreprise améliore les performances de ses équipes en évitant les redondances. Elle économise des ressources et accélère l'accès aux données essentielles à la croissance et au développement de l'entreprise..

[1] Blog du modérateur : https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info : https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.