Spark2.4.6单机模式安装文档

最新推荐文章于 2021-09-04 10:17:50 发布

原创最新推荐文章于 2021-09-04 10:17:50 发布 · 820 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#spark #大数据 #java

hadoop 专栏收录该内容

10 篇文章

订阅专栏

本文档详细介绍了如何在单机模式下安装Spark2.4.6，包括前置条件Scala的安装、Spark下载与解压、环境变量配置、配置文件修改以及启动Spark的步骤。

Spark2.4.6单机模式安装文档

前提：安装Scala

下载安装文件

wget -P /opt/ https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

解压缩
将Scala解压缩到/opt目录下：

tar zxvf /opt/scala-2.11.12.tgz -C /opt/
配置环境变量

编辑 /etc/profile 文件
vim /etc/profile

声明SCALA_HOME
export SCALA_HOME=/opt/scala-2.11.12

将SCALA_HOME添加到PATH变量中
exprot PATH= $SCALA_HOME/bin:$ PATH…

是本次配置生效
source /etc/profile
检查是否配置成功
在命令行中输入scala -version，如果正确显示版本信息，则说明上述配置成功。

Scala code runner version 2.11.12 – Copyright 2002-2017, LAMP/EPFL

1. 获取安装文件

下载spark-2.4.6

wget -P /opt/ http://mirror.bit.edu.cn/apache/spark/spark-2.4.6/spark-2.4.6-bin-hadoop2.7.tgz

2. 解压缩Spark安装文件

将Spark解压缩到/opt目录下：

tar zxvf /home/download/spark-2.4.6-bin-hadoop2.7.tgz -C /opt/

系统默认使用“spark-2.4.6-bin-hadoop2.7”作为文件夹名称，该名称过长，后续配置时使用起来不方便，因此通过下面的命令将文件夹更名为“spark”：

mv /opt/spark-2.4.6-bin-hadoop2.7 /opt/spark

3. 配置系统环境变量

编辑/etc/profile文件
vim /etc/profile

声明SPARK_HOME
export SPARK_HOME=/opt/spark

将SPARK_HOME添加到PATH变量中
exprot PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH...

是本次配置生效
source /etc/profile

4. 配置Spark的配置文件

Spark的配置文件为spark-env.sh。安装文件中默认没有该文件，仅提供了一个该文件的模板文件。配置前，需要先复制模板文件，生成正式的配置文件。命令如下：

cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh

对spark-env.sh文件进行编辑:

vim spark-env.sh

该文件中默认全部是注释的内容，所以可以直接在第一行开始添加必要的配置。这里添加2项配置：

export SPARK_LOCAL_IP=192.168.56.101
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.8.5/bin/hadoop classpath)

其中第一项是配置Spark运行的主节点的IP地址，在当前情况下，就是Linux虚拟机的ip地址。第二项配置可以使Spark将数据存储在Hadoop的分步式文件系统HDFS中，也可以从HDFS中读取数据。

5. 启动Spark

Spark提供了一个在终端中运行的交互式执行环境，可以通过在Linux终端中输入spark-shell命令来开启。spark-shell为初学者提供了一个交互的环境，使用者输入一条语句，spark-shell会马上执行并返回结果，使用者可以立即看到语句的执行结果，而不用得到整个程序运行完毕。

spark-shell支持Scala和Python。使用spark-shell命令默认会进入Scala的交互式执行环境。如果要进入Python的交互式执行环境，则需要执行pyspark命令。
在Linux终端中输入spark-shell命令，默认以单机模式进入spark-shell交互执行环境，终端会进入“scala>”命令提示符状态。

Spark提供了一个简单的本地网站（http://192.168.56.101:4040/jobs/），供使用者直观的了解当前Spark计算任务的执行状态、Spark本身的运行环境等信息。启动Spark后，使用者可以使用谷歌浏览器访问该页面。