Comment installer et configurer Apache Spark sur Ubuntu/Debian

Apache Spark est un cadre de calcul distribué open source créé pour fournir des résultats de calcul plus rapides. Il s'agit d'un moteur de calcul en mémoire, ce qui signifie que les données seront traitées en mémoire.

Spark prend en charge diverses API pour le streaming, le traitement de graphiques, SQL et MLLib. Il prend également en charge Java, Python, Scala et R comme langages préférés. Spark est principalement installé dans les clusters Hadoop mais vous pouvez également installer et configurer Spark en mode autonome.

Dans cet article, nous verrons comment installer Apache Spark dans les distributions Debian et Ubuntu.

Installer Java et Scala dans Ubuntu

Pour installer Apache Spark dans Ubuntu, vous devez avoir Java et Scala installés sur votre ordinateur. La plupart des distributions modernes sont livrées avec Java installé par défaut et vous pouvez le vérifier à l'aide de la commande suivante.

java -version

En l'absence de résultat, vous pouvez installer Java à l'aide de notre article sur la façon d'installer Java sur Ubuntu ou simplement exécuter les commandes suivantes pour installer Java sur les distributions basées sur Ubuntu et Debian.

sudo apt update
sudo apt install default-jre
java -version

Ensuite, vous pouvez installer Scala à partir du référentiel apt en exécutant les commandes suivantes pour rechercher scala et l'installer.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Pour vérifier l'installation de Scala, exécutez la commande suivante.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installer Apache Spark dans Ubuntu

Accédez maintenant à la page de téléchargement officielle d'Apache Spark et récupérez la dernière version (c'est-à-dire 3.1.1) au moment de la rédaction de cet article. Alternativement, vous pouvez utiliser la commande wget pour télécharger le fichier directement dans le terminal.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Ouvrez maintenant votre terminal et passez à l'emplacement où votre fichier téléchargé est placé et exécutez la commande suivante pour extraire le fichier tar Apache Spark.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Enfin, déplacez le répertoire Spark extrait vers le répertoire /opt.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Configurer les variables d'environnement pour Spark

Vous devez maintenant définir quelques variables d'environnement dans votre fichier .profile avant de démarrer Spark.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Pour vous assurer que ces nouvelles variables d'environnement sont accessibles dans le shell et disponibles pour Apache Spark, il est également obligatoire d'exécuter la commande suivante pour prendre en compte les modifications récentes.

source ~/.profile

Tous les binaires liés à Spark pour démarrer et arrêter les services se trouvent dans le dossier sbin.

ls -l /opt/spark

Démarrez Apache Spark dans Ubuntu

Exécutez la commande suivante pour démarrer le service maître et le service esclave Spark.

start-master.sh
start-workers.sh spark://localhost:7077

Une fois le service démarré, accédez au navigateur et tapez la page Spark d'accès URL suivante. Sur la page, vous pouvez voir que mon service maître et esclave est démarré.

http://localhost:8080/
OR
http://127.0.0.1:8080

Vous pouvez également vérifier si spark-shell fonctionne correctement en lançant la commande spark-shell.

spark-shell

C'est tout pour cet article. Nous vous retrouverons très bientôt avec un autre article intéressant.