Comment installer et configurer Apache Hadoop sur un seul nœud dans CentOS 7

Apache Hadoop est un framework Open Source conçu pour le stockage distribué du Big Data et le traitement des données sur des clusters d'ordinateurs. Le projet repose sur les composantes suivantes :

Hadoop Common : il contient les bibliothèques et utilitaires Java nécessaires aux autres modules Hadoop.
HDFS – Système de fichiers distribué Hadoop – Un système de fichiers évolutif basé sur Java distribué sur plusieurs nœuds.
MapReduce – Framework YARN pour le traitement parallèle du Big Data.
Hadoop YARN : un cadre pour la gestion des ressources de cluster.

Cet article vous explique comment installer Apache Hadoop sur un cluster à nœud unique dans CentOS 7 (fonctionne également pour RHEL 7 et Fedora 23+ ). versions). Ce type de configuration est également référencé sous le nom de Mode pseudo-distribué Hadoop.

Étape 1 : Installer Java sur CentOS 7

1. Avant de procéder à l'installation de Java, connectez-vous d'abord avec l'utilisateur root ou un utilisateur disposant des privilèges root, configurez le nom d'hôte de votre machine avec la commande suivante.

hostnamectl set-hostname master

Ajoutez également un nouvel enregistrement dans le fichier hosts avec le nom de domaine complet de votre propre machine pour pointer vers l'adresse IP de votre système.

vi /etc/hosts

Ajoutez la ligne ci-dessous :

192.168.1.41 master.hadoop.lan

Remplacez le nom d'hôte et les enregistrements FQDN ci-dessus par vos propres paramètres.

2. Ensuite, accédez à la page de téléchargement d'Oracle Java et récupérez la dernière version du Java SE Development Kit 8 sur votre système à l'aide de curl. commande:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Une fois le téléchargement du binaire Java terminé, installez le package en exécutant la commande ci-dessous :

rpm -Uvh jdk-8u92-linux-x64.rpm

Étape 2 : Installer Hadoop Framework dans CentOS 7

4. Ensuite, créez un nouveau compte utilisateur sur votre système sans pouvoirs root que nous utiliserons pour le chemin d'installation et l'environnement de travail Hadoop. Le répertoire de base du nouveau compte résidera dans le répertoire /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. À l'étape suivante, visitez la page Apache Hadoop afin d'obtenir le lien vers la dernière version stable et téléchargez l'archive sur votre système.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Extrayez l'archive et copiez le contenu du répertoire dans le chemin d'accueil du compte Hadoop. Assurez-vous également de modifier les autorisations des fichiers copiés en conséquence.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Ensuite, connectez-vous avec l'utilisateur hadoop et configurez Hadoop et les Variables d'environnement Java sur votre système en modifiant le 7...bash_profile.

su - hadoop
vi .bash_profile

Ajoutez les lignes suivantes à la fin du fichier :

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Maintenant, initialisez les variables d'environnement et vérifiez leur état en exécutant les commandes ci-dessous :

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Enfin, configurez l'authentification basée sur la clé SSH pour le compte hadoop en exécutant les commandes ci-dessous (remplacez le nom d'hôte ou le FQDN contre la commande ssh-copy-id en conséquence).

Laissez également la phrase secrète vide afin de vous connecter automatiquement via ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan