如何在Debian 10上安装Apache Spark_科技分享

在Debian 10 Buster上安装Apache Spark

步骤1.在运行下面的教程之前，重要的是通过apt在终端中运行以下命令来确保系统是最新的：

sudo apt update

步骤2.安装Java。

Apache Spark需要Java才能运行，确保我们在Debian系统上安装了Java：

sudo apt install default-jdk

使用以下命令验证Java版本：

java -version

步骤3.安装Scala。

现在，我们在Debian系统上安装Scala软件包：

sudo apt install scala

检查Scala的版本：

scala -version

步骤4.在Debian上安装Apache Spark。

现在我们可以下载Apache Spark二进制文件：

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下来，提取Spark tarball：

tar xvf spark-3.1.1-bin-hadoop2.7.tgz
sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成后，设置Spark环境：

nano ~/.bashrc

在文件末尾，添加以下行：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存更改并关闭编辑器。要应用更改，请运行：

source ~/.bashrc

现在，使用以下命令启动Apache Spark，其中之一是集群的主服务器：

start-master.sh

要查看Spark Web用户界面如下所示，请打开Web浏览器并在端口8080上输入localhost IP地址：

http://127.0.0.1:8080/

spark-web-ui-1

在这种单服务器独立设置中，我们将与主服务器一起启动一个从服务器。该命令用于启动Spark Worker进程：start-slave.sh

start-slave.sh spark://ubuntu1:7077

现在工作人员已经启动并正在运行，如果您重新加载Spark Master的Web UI，您应该在列表上看到它：

spark-workers-alive-1

完成配置后，启动主服务器和从属服务器，测试Spark Shell是否正常工作：

spark-shell

恭喜你！您已经成功安装了Spark。感谢您使用本教程在Debian系统上安装最新版本的Apache Spark。有关其他帮助或有用信息，建议您查看Apache Spark官方网站。