Recherche de site Web

Meilleures pratiques pour le déploiement du serveur Hadoop sur CentOS/RHEL 7 - Partie 1


Dans cette série d'articles, nous allons couvrir l'intégralité de la création de Cloudera Hadoop Cluster Building avec les meilleures pratiques recommandées par les fournisseurs et industriels.

Installation du OS et exécution du niveau OS. Les prérequis sont les premières étapes pour créer un cluster Hadoop. Hadoop peut fonctionner sur les différentes versions de la plate-forme Linux : CentOS, RedHat, Ubuntu, Debian<, SUSE etc.. En production en temps réel, la plupart des clusters Hadoop sont construits sur RHEL/CentOS, nous utilisera CentOS 7 pour la démonstration dans cette série de didacticiels.

Dans une organisation, l'installation du système d'exploitation peut être effectuée à l'aide de kickstart. S’il s’agit d’un cluster de 3 à 4 nœuds, l’installation manuelle est possible mais si l’on construit un gros cluster avec plus de 10 nœuds, il est fastidieux d’installer les OS un par un. Dans ce scénario, la méthode Kickstart entre en scène, nous pouvons procéder à l'installation en masse à l'aide de kickstart.

L'obtention de bonnes performances à partir d'un environnement Hadoop dépend de la fourniture du matériel et des logiciels appropriés. Ainsi, la création d'un cluster Hadoop de production implique beaucoup de réflexion concernant le matériel et les logiciels.

Dans cet article, nous passerons en revue divers benchmarks sur l'installation du système d'exploitation et quelques bonnes pratiques pour le déploiement du Cloudera Hadoop Cluster Server sur CentOS/RHEL 7.

Considération importante et bonnes pratiques pour le déploiement du serveur Hadoop

Voici les bonnes pratiques pour configurer le déploiement du Cloudera Hadoop Cluster Server sur CentOS/RHEL 7.

  • Les serveurs Hadoop ne nécessitent pas de serveurs standard d'entreprise pour créer un cluster, ils nécessitent du matériel de base.
  • Dans le cluster de production, il est recommandé de disposer de 8 à 12 disques de données. Selon la nature de la charge de travail, nous devons en décider. Si le cluster est destiné à des applications gourmandes en calcul, il est recommandé de disposer de 4 à 6 disques pour éviter les problèmes d'E/S.
  • Les lecteurs de données doivent être partitionnés individuellement, par exemple, de /data01 à /data10.
  • La configuration RAID n'est pas recommandée pour les nœuds de travail, car Hadoop fournit lui-même une tolérance aux pannes sur les données en répliquant les blocs en 3 par défaut. JBOD est donc le meilleur pour les nœuds de travail.
  • Pour les serveurs maîtres, RAID 1 est la meilleure pratique.
  • Le système de fichiers par défaut sur CentOS/RHEL 7.x est XFS. Hadoop prend en charge XFS, ext3 et ext4. Le système de fichiers recommandé est ext3 car ses performances sont testées.
  • Tous les serveurs doivent avoir la même version du système d'exploitation, au moins la même version mineure.
  • Il est préférable d'avoir un matériel homogène (tous les nœuds de travail doivent avoir les mêmes caractéristiques matérielles (RAM, espace disque et cœur, etc.).
  • Selon la charge de travail du cluster (charge de travail équilibrée, calcul intensif, E/S intensives) et la taille, la planification des ressources (RAM, CPU) par serveur sera différente.

Trouvez l'exemple ci-dessous pour le partitionnement de disque des serveurs de stockage de 24 To.

Installation de CentOS 7 pour le déploiement du serveur Hadoop

Ce que vous devez savoir avant d'installer le serveur CentOS 7 pour Hadoop Server.

  • Une installation minimale est suffisante pour les serveurs Hadoop (nœuds de travail). Dans certains cas, l'interface graphique ne peut être installée que pour les serveurs maîtres ou les serveurs de gestion sur lesquels nous pouvons utiliser des navigateurs pour les interfaces utilisateur Web de Outils de gestion.
  • La configuration des réseaux, du nom d'hôte et d'autres paramètres liés au système d'exploitation peut être effectuée après l'installation du système d'exploitation.
  • En temps réel, les fournisseurs de serveurs disposeront de leur propre console pour interagir et gérer les serveurs, par exemple – les serveurs Dell disposent d'iDRAC, qui est un périphérique intégré aux serveurs. En utilisant cette interface iDRAC, nous pouvons installer le système d'exploitation avec une image du système d'exploitation dans notre système local.

Dans cet article, nous avons installé le système d'exploitation (CentOS 7) sur la machine virtuelle VMware. Ici, nous n'aurons pas plusieurs disques pour effectuer des partitions. CentOS est similaire à RHEL (même fonctionnalité), nous verrons donc les étapes pour installer CentOS.

1. Commencez par télécharger l'image ISO CentOS 7.x sur votre système Windows local et sélectionnez-la lors du démarrage de la machine virtuelle. Sélectionnez « Installer CentOS 7 » comme indiqué.

2. Sélectionnez la Langue (la valeur par défaut sera l'anglais et cliquez sur continuer.

3. Sélection du logiciel – Sélectionnez « Installation minimale » et cliquez sur « Terminé ».

4. Définissez le mot de passe root car il nous demandera de le définir.

5. Destination de l'installation – C'est l'étape importante à laquelle il faut être prudent. Nous devons sélectionner le disque sur lequel le système d'exploitation doit être installé, un disque dédié doit être sélectionné pour le système d'exploitation. Cliquez sur « Destination d'installation » et sélectionnez le disque. En temps réel, plusieurs disques seront là, nous devons sélectionner, de préférence « sda ».

6. Autres options de stockage – Choisissez la deuxième option (je vais configurer le partitionnement) pour configurer le partitionnement lié au système d'exploitation comme /var, / var/log, /home, /tmp, /opt, /swap.

7. Une fois terminé, commencez l'installation.

8. Une fois l'installation terminée, redémarrez le serveur.

9. Connectez-vous au serveur et définissez le nom d'hôte.

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

Résumé

Dans cet article, nous avons passé en revue les étapes d'installation du système d'exploitation et les meilleures pratiques pour le partitionnement du système de fichiers. Ce sont toutes des lignes directrices générales, selon la nature de la charge de travail, nous devrons peut-être nous concentrer sur plus de nuances pour obtenir les meilleures performances du cluster. La planification de cluster est un art pour l'administrateur Hadoop. Nous examinerons en profondeur les prérequis au niveau du système d’exploitation et le renforcement de la sécurité dans le prochain article.