Apache Spark 是一个免费的、开源的、通用的集群计算框架。它专为提高速度而设计,用于机器学习以流式处理复杂的 SQL 查询。它支持多种用于流媒体、图形处理的 API,包括 Java、Python、Scala 和 R。Spark 主要安装在 Hadoop 集群中,但您也可以在独立模式下安装和配置 Spark。apache-spark-logoapache-spark-logo

在 Debian 11 Bullseye 上安装 Apache Spark

步骤 1. 在我们安装任何软件之前,通过apt在终端中运行以下命令来确保您的系统是最新的很重要:

sudo apt update
sudo apt upgrade

步骤 2. 安装 Java。

运行以下命令来安装 Java 和其他依赖项:

sudo apt install default-jdk scala git

使用以下命令验证 Java 安装:

java --version

步骤 3. 在 Debian 11 上安装 Apache Spark。

现在我们使用wget命令从官方页面下载最新版本的 Apache Spark :

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

接下来,提取下载的文件:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

之后,编辑文件并添加 Spark 路径变量:~/.bashrc

nano ~/.bashrc

添加以下行:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存并关闭文件,然后使用以下命令激活 Spark 环境变量:

source ~/.bashrc

步骤 3. 启动 Apache Spark 主服务器。

至此,Apache spark安装完毕。现在让我们通过运行它的脚本来启动它的独立主服务器:

start-master.sh

默认情况下,Apache Spark 侦听端口 8080。您可以使用以下命令进行检查:

ss -tunelp | grep 8080

步骤 4. 访问 Apache Spark Web 界面。

成功配置后,现在使用 URL 访问 Apache Spark Web 界面。您应该在以下屏幕上看到 Apache Spark 主从服务:http://your-server-ip-address:8080

spark-web-uispark-web-ui

在这个单服务器、独立设置中,我们将与主服务器一起启动一个从服务器。该命令用于启动 Spark Worker Process:start-slave.sh

start-slave.sh spark://ubuntu1:7077

现在工作人员已启动并运行,如果您重新加载 Spark Master 的 Web UI,您应该会在列表中看到它:

spark-workers-alivespark-web-ui

配置完成后,启动主从服务器,测试 Spark shell 是否正常工作:

spark-shell

您将获得以下界面:

Spark session available as \'spark\'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\\ \\/ _ \\/ _ `/ __/  \'_/
   /___/ .__/\\_,_/_/ /_/\\_\\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

感谢您使用本教程在 Debian 11 Bullseye 上安装最新版本的 Apache Spark。如需其他帮助或有用信息,我们建议您查看Apache Spark 官方网站。