在Debian 10 Buster上安装Apache Spark

步骤1.在运行下面的教程之前,重要的是通过apt在终端中运行以下命令来确保系统是最新的:

sudo apt update

步骤2.安装Java。

Apache Spark需要Java才能运行,确保我们在Debian系统上安装了Java:

sudo apt install default-jdk

使用以下命令验证Java版本:

java -version

步骤3.安装Scala。

现在,我们在Debian系统上安装Scala软件包:

sudo apt install scala

检查Scala的版本:

scala -version

步骤4.在Debian上安装Apache Spark。

现在我们可以下载Apache Spark二进制文件:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下来,提取Spark tarball:

tar xvf spark-3.1.1-bin-hadoop2.7.tgz
sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成后,设置Spark环境:

nano ~/.bashrc

在文件末尾,添加以下行:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存更改并关闭编辑器。要应用更改,请运行:

source ~/.bashrc

现在,使用以下命令启动Apache Spark,其中之一是集群的主服务器:

start-master.sh

要查看Spark Web用户界面如下所示,请打开Web浏览器并在端口8080上输入localhost IP地址:

http://127.0.0.1:8080/

spark-web-ui-1spark-web-ui-1

在这种单服务器独立设置中,我们将与主服务器一起启动一个从服务器。该命令用于启动Spark Worker进程:start-slave.sh

start-slave.sh spark://ubuntu1:7077

现在工作人员已经启动并正在运行,如果您重新加载Spark Master的Web UI,您应该在列表上看到它:

spark-workers-alive-1spark-workers-alive-1

完成配置后,启动主服务器和从属服务器,测试Spark Shell是否正常工作:

spark-shell

恭喜你!您已经成功安装了Spark。感谢您使用本教程在Debian系统上安装最新版本的Apache Spark。有关其他帮助或有用信息,建议您查看Apache Spark官方网站。