Cluster Hadoop

Hadoop est un logiciel libre conçu pour permettre unegestion des données évolutif gestion des données sur un ensemble de serveurs de base étroitement couplés. La grappe fonctionne selon une configuration primaire-secondaire avec un seul nœud de serveur de noms et plusieurs nœuds de travail. Les composants de la distribution de base comprennent un système de fichiers distribués et un distributeur de charge de travail fournissant un traitement de données parallèle hautement évolutif. Hadoop est particulièrement bien adapté à l'analyse des données big data.
Pourquoi les grappes Hadoop sont-elles importantes ?
Hadoop est essentiel pour les entreprises car il permet un traitement parallèle hautement évolutif des données pour les grands ensembles de données. Avant Hadoop, les clusters de de haute performance et le traitement parallèle massif n'existaient que sur du matériel et des logiciels propriétaires, ce qui les rendait hors de portée des petites entreprises.
L'entreprise peut utiliser la distribution Apache recommandée ou choisir l'une des nombreuses options de distribution commerciale.
Les grappes Hadoop sont élastiques car elles permettent d'ajouter ou de retirer facilement des nœuds pour répondre aux demandes de charge de travail au fur et à mesure qu'elles évoluent.
Modules logiciels d'une Cluster Hadoop
Voici les quatre composants communs de la distribution Hadoop.
Hadoop Commun
Les bibliothèques et utilitaires communs qui support autres modules Hadoop.
MapReduce
MapReduce facilite le traitement parallèle efficace de grands ensembles de données sur plusieurs nœuds de cluster afin de compresser les volumes de données. La tâche Map convertit les données sources en paires clé/valeur dans un jeu de données intermédiaire. La sortie de la tâche Map est combinée en un ensemble de données plus petit par la tâche Reduce.
Système de fichiers distribués Hadoop (HDFS™)
HDFS distribue des fichiers de données volumineux sur les nœuds d'un système en grappe. Les applications utilisant HDFS avantage d'un accès parallèle qui utilise plusieurs serveurs pour des requête rapides et un débit de données élevé. HDFS stocke les fichiers volumineux sur plusieurs nœuds d'un cluster. Les données sont protégées en les répliquant entre les nœuds. Par défaut, les données sont répliquées sur trois nœuds. Les nœuds de données peuvent rééquilibrer les données pour maintenir une distribution uniforme.
Hadoop HDFS utilise les services de fichiers suivants :
Les cinq services sont les suivants :
- Le nœud de nom est le nœud principal qui détermine où chaque bloc de données est stocké, y compris les répliques. Ce nœud maintient le contact avec les clients.
- Le nœud de nom secondaire gère les points de contrôle des systèmes de fichiers métadonnées utilisés par le nœud de nom.
- Le Job Tracker reçoit les demandes d'exécution de Map Reduce et communique avec le Name Node pour obtenir l'emplacement des données à traiter.
- Les nœuds de données agissent comme des tâches secondaires pour le Job Tracker.
- Les traqueurs detâche agissent comme des esclaves du traqueur d'emplois.
Hadoop YARN
YARN (Yet Another Resource Negotiator) gère les ressources globales (inter-clusters) et planifie les travaux d'application sur l'ensemble du cluster. Les ressources sont définies comme suit : processeur, réseau, disque et mémoire. Les conteneurs d'application demandent des ressources à leur gestionnaire d'application, qui transmet les demandes au NodeManager du serveur, lequel transmet à son tour les demandes au ResourceManager global.
L'évolution de Hadoop
En 2002, Doug Cutting et Mike Cafarella ont commencé à travailler sur le projet Apache Nutch. En 2004, ils ont mis en œuvre dans le projet Apache Nutch ce qu'ils avaient appris dans les livres blancs de Google décrivant le système de fichiers de Google et MapReduce. En 2007, Yahoo a commencé à utiliser Hadoop sur un cluster de 1000 nœuds. En 2009, Hadoop a été utilisé pour trier un jeu de données d'un pétaoctet. En 2011, l'Apache Software Foundation a publié la version 1.0 d'Apache Hadoop.
Distributions Hadoop
La version de base de Hadoop est maintenue dans le cadre d'un projet Apache à code source ouvert. Les fournisseurs de logiciels distribuent des versions étendues dont ils assurent la maintenance et le support. Cloudera, Hortonworks (qui fait maintenant partie de Cloudera) et AWS HDInsight sont des exemples de distributions Hadoop.
Apache Spark™
Apache Spark™ est un moteur multilingue permettant d'exécuter des tâches d'ingénierie des données, de science des données et d'apprentissage automatique sur des machines à nœud unique ou des clusters.
plateforme de données Actian et Hadoop
Grâce à son architecture de traitement massivement parallèle (MPP), la plateforme de données plateforme de données Actian évolue jusqu'à des milliers de nœuds et offre un accès direct aux formats de données Hadoop grâce à son connecteur Spark. La plateforme de données Actian peut stocker des données dans le système de fichiers distribués Hadoop (HDFS) en utilisant son propre format de données pour protéger les données. Les requêtes peuvent être parallélisées au sein d'un nœud de serveur et entre les nœuds à l'aide de YARN pour planifier et coordonner les tâches des travailleurs.