开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据环境搭建 -> 正文阅读

[大数据]大数据环境搭建

大数据环境搭建

一、准备环境

说明：为了简化和统一安装，这里对安装包的上传目录和安装目录进行统一，如果没有特殊说明，则默认上传和安装至以下目录：
sudo mkdir /export/software/		#安装包上传目录
sudo mkdir /export/servsers/		#安装包安装目录

1. Java环境

1.1 卸载系统默认安装的OpenJDK

查询系统是否安装openjdk
```
sudo rpm -qa | grep java
```

卸载openjdk

sudo rpm -e --nodeps $(这里需要复制上述命令的查询结果，如果有多条记录，请多次执行，如果没有，则忽略，类似下面的例子)
sudo rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.i686

1.2 安装JDK

上传安装包至你的软件包目录下(看自己的习惯)，这里以/export/software/为例，jdk包为jdk-8u141-linux-x64.tar.gz

修改安装包权限并解压至java工作目录(看自己的习惯)，这里以/export/servers/为例

chmod 755 /export/softwares/jdk-8u141-linux-x64.tar.gz
tar -zxvf /export/softwares/jdk-8u141-linux-x64.tar.gz -C /export/servers/

1.3 配置环境变量

使用命令：sudo vim /etc/profile编辑配置文件，添加

export JAVA_HOME=/export/servers/jdk1.8.0_141
export PATH=$PATH:$JAVA_HOME/bin

重新编译加载配置文件
```
sudo source /etc/profile
```
测试环境
```
java -version
```
出现下图则表示jdk安装成功

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b1J60SpE-1628870362667)(http://picbed.vicjax.top/Install&Config/20191121145003jdk安装.png)]

注：多台节点请确保每个节点的jdk都安装成功

2. Scala安装（非必须）

scala可以搭建在自己的开发环境中，如果不需要在服务器手动运行scala，则不需要在服务器安装scala

scala的安装和java类似

下载

下载地址：https://www.scala-lang.org/download/

选择gz包：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6PdcmsMd-1628870362670)(http://picbed.vicjax.top/Install&Config/20191123004849scala-env-download.png)]
上传

解压

 tar -zxvf /export/softwares/scala-2.13.1.tgz -C /export/servers/

配置环境变量

vim /etc/profile
# 添加以下内容
export SCALA_HOME=/export/servers/scala-2.13.1
export PATH=:$PATH:$SCALA_HOME/bin
# 编译配置文件
source /etc/profile

测试
```
scala --version
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kJd9NHpe-1628870362672)(http://picbed.vicjax.top/Install&Config/20191123005903scala-env-test.png)]

3. Zookeeper（CDH版本）搭建

为与cdh版本的hadoop环境对应，这里使用cdh版本的zookeeper

3.1 安装zookeeper

下载上传

/export/softwares/zookeeper-3.4.5-cdh5.14.0.tar.gz

解压

tar -zxvf /export/softwares/zookeeper-3.4.5-cdh5.14.0.tar.gz -C /export/servers/

创建数据存放目录

mkdir -p /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas

3.2 配置zookeeper

主机名IP地址映射

sudo vim /etc/hosts
#添加下面的映射， 这里的ip地址改为自己服务器的外网或内网ip即可"
#这里如果使用的是云服务器，请在这里将当前节点的ip换成内网ip，其他节点换成外网ip即可，否则可能出现namenode启动不了的错误"
192.168.100.100 node01
192.168.100.200 node02
192.168.100.300 node03

#配置完成重启
reboot

复制配置文件

cp /export/servers/zookeeper-3.4.5-cdh5.14.0/conf/zoo_sample.cfg /export/servers/zookeeper-3.4.5-cdh5.14.0/conf/zoo.cfg

修改配置文件

vim /export/servers/zookeeper-3.4.5-cdh5.14.0/conf/zoo.cfg
#添加以下内容
dataDir=/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas
autopurge.snapRetainCount=3
autopurge.purgeInterval=1
server.1=node01:2888:3888
server.2=node02:2888:3888
server.3=node03:2888:3888

注：这里的node01、node02、node03是ip映射之后的主机名，若有多个节点，请自行映射ip之后添加即可

创建节点myid

echo 1 > /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas/myid

3.3 多节点分发

将配置好的文件分发到其他节点

scp -r /export/servers/zookeeper-3.4.5-cdh5.14.0/ node02:$PWD
scp -r /export/servers/zookeeper-3.4.5-cdh5.14.0/ node03:$PWD
...

若有多个节点，依次分发到各个节点即可

为各个节点指定myid
```
echo $myid > /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas/myid
```
这里 $m y i d 应与 z o o . c f g 中 ‘ s e r v e r . n = n o d e n : 2888 : 3888 ‘ 相一致，比如 n o d e 02 节点$ myid=2，node03节点$myid=3，以此类推即可

3.4 启动zookeeper

启动

bash /export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh start

查看

bash /export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh status

停止

bash /export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh stop

4 Mysql的安装

如果使用hive，请在该节点安装MySQL

4.1 添加mysql yum源

在centOS上直接使用yum install mysql安装，最后安装上的会是MariaDB，所以要先添加mysql yum源

rpm -Uvh https://repo.mysql.com//mysql80-community-release-el7-2.noarch.rpm

4.2 安装（如果要安装最新版，可直接开始安装）

查看yum源中所有Mysql版本
```
yum repolist all | grep mysql
```
此时的最新版本是mysql8.0，把它禁用掉
```
yum-config-manager --disable mysql80-community
```
mysql5.7是我要安装的版本，启用mysql5.7
```
yum-config-manager --enable mysql57-community
```
检查刚才的配置是否生效
```
yum repolist enabled | grep mysql
```
开始安装
```
yum install mysql-community-server
```

4.3 启动服务

service mysqld start

启动完成之后检查mysql状态，
```
service mysqld status
```

查看临时密码

grep 'temporary password' /var/log/mysqld.log

登录
```
mysql -uroot -p
```
修改临时密码
```
ALTER USER user@localhost IDENTIFIED BY 'newpasswd';
```
这里user一般为root，或者是当前的使用用户，localhost为访问地址。

开放mysql远程访问权限

 grant all privileges on *.* to 'root'@'%' identified by'Mysql@node03' with grant option;

二、Hadoop(CDH版)搭建

1. 集群部署规划

类别	属性	测试节点(ip)	生产节点（ip）
hdfs	NameNode	node01	node01
-	SecondaryNameNode	node02	node02
-	DataNode	node01,node02,node03,…	node03,node04,…
yarn	ResourceManager	node02	node01/node02
	NodeManager	node01,node02,node03,…	node03,node04…
MapReduce	JobHistoryServer	node03	node01/node02

这里的节点分配仅供参考，测试环境采用三台服务器搭建，部分节点分配有重复，可根据实际配置更改

2. 安装

2.1 上传解压

将需要的cdh版本的hadoop安装包上传至服务器
```
/export/softwares/hadoop-2.6.0-cdh5.14.0.tar.gz
```

解压文件

tar -zxvf /export/softwares/hadoop-2.6.0-cdh5.14.0.tar.gz -C /export/servers/

2.2 配置hadoop

core-site.xml

#进入配置文件目录
 cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/
 vim core-site.xml

配置以下内容：

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://node01:8020</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas</value>
	</property>
	<!--  缓冲区大小，实际工作中根据服务器性能动态调整 -->
	<property>
		<name>io.file.buffer.size</name>
		<value>2048</value>
	</property>

	<!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
	</property>
</configuration>

hdfs-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml

添加以下内容：

<configuration>
	<property>
		 <name>dfs.namenode.secondary.http-address</name>
		 <value>node02:50070</value>
	</property>
	<property>
		<name>dfs.namenode.http-address</name>
		<value>node01:50070</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value>
	</property>
	<!--  定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value>
	</property>
	
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>
    <property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>
</configuration>

hadoop-env.sh
```
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hadoop-env.sh
```
添加以下内容：
```
export JAVA_HOME=/export/servers/jdk1.8.0_141
```
这里配置JAVA_HOME建议给出绝对路径，不然容易出现jave不存在的错误：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o8gya9Wp-1628870362674)(http://picbed.vicjax.top/Install&Config/20191122100003hadoop-env-error-no-java.png)]

mapred-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim mapred-site.xml

添加以下内容：

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>node01:10020</value>
	</property>

	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>node01:19888</value>
	</property>
</configuration>

yarn-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim yarn-site.xml

添加以下内容：

<configuration>
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>node01</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>
</configuration>

slaves

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim slaves

添加以下内容：

node01
node02
node03

2.3 创建文件目录

执行以下命令

mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas 
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits

2.4 向节点分发

执行以下目录

cd /export/servers/
scp -r hadoop-2.6.0-cdh5.14.0/ node02:$PWD
scp -r hadoop-2.6.0-cdh5.14.0/ node03:$PWD

2.5 配置环境变量

添加hadoop的环境变量

vim /etc/porfile/
"添加以下内容"
export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
"使配置生效"
source /etc/profile

3. 启动测试

所有的脚本启动命令皆存在于$HADOOP_HOME/sbin目录下，使用命令之前建议先进入该目录：

cd /export/servers/hadoop-2.6.0-cdh5.14.0/sbin/

单节点启动/停止集群

单节点启动需要在每个节点上启动对应的服务：

"hdfs主节点/备用主节点启动NameNode"
bash hadoop-daemon.sh start namenode
"hdfs从节点启动DataNode"
bash hadoop-daemon.sh start datanode
"yarn主节点启动ResouceManager"
bash yarn-daemon.sh start resourcemanager 
"yarn从节点启动NodeManager"
bash yarn-daemon.sh start nodemanager
"Mapred节点启动HistoryServer"
bash mr-jobhistory-daemon.sh start historyserver

关闭集群只需将start改为stop即可。

脚本一键启动

脚本启动是将以上命令进行封装为一个启动脚本，需要配置$HADOOP_HOME/etc/hadoop/slaves文件和ssh免密登录

#启动hdfs集群
bash start-dfs.sh
#启动yarn集群
bash start-yarn.sh
#启动HistoryServer
bash mr-jobhistory-daemon.sh start historyserver
#停止集群将start改为stop即可

也可以直接启动/停止所有服务：

#这两个脚本已过时,推荐使用上述两个脚本
bash start-all.sh
bash stop-all.sh

测试

命令行查看节点上启动的服务：
```
jps | grep -v Jps
```
这里以测试环境为例，查看节点上启动的服务：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wFq1Vm3F-1628870362676)(http://picbed.vicjax.top/Install&Config/20191122125006hadoop-env-jps.png)]

使用浏览器界面查看启动的集群：
```
"hdfs集群访问地址"
http://192.168.100.100:50070/dfshealth.html#tab-overview  
"yarn集群访问地址"
http://192.168.100.200:8088/cluster
"jobhistory访问地址"
http://192.168.100.300:19888/jobhistory
```
这里的IP换成相应服务启动的节点ip即可。

出现类似的界面代表集群搭建成功：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EyV4QFK5-1628870362677)(http://picbed.vicjax.top/Install&Config/20191122125817hadoop-env-test.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VAHF1MRK-1628870362678)(http://picbed.vicjax.top/Install&Config/20191122125925hadoop-env-test.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pHwnCrGb-1628870362679)(http://picbed.vicjax.top/Install&Config/20191122130732hadoop-env-test.png)]

三、Hive的安装部署

1 上传安装

1.1 上传

这里使用cdh版本的hive，hive-1.1.0-cdh5.14.0.tar.gz ，选择一个节点上传

1.2 解压

cd /export/softwares/
tar -zxvf /export/softwares/hive-1.1.0-cdh5.14.0.tar.gz -C /export/servers/

2 使用

cd /export/servers/hive-1.1.0-cdh5.14.0/
/bin/hive

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GNdjqOWa-1628870362680)(http://picbed.vicjax.top/Install&Config/20191122165804hadoop-env-hive.png)]

3 Mysql管理元数据

3.1 修改hive-env.sh

#进入hive配置目录
cd /export/servers/hive-1.1.0-cdh5.14.0/conf/
#备份配置文件
#编辑配置文件
#添加hadoop环境变量
HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export HIVE_CONF_DIR=/export/servers/hive-1.1.0-cdh5.14.0/conf

3.2 修改hive-site.xml

如果不存在，则创建即可

cd /export/servers/hive-1.1.0-cdh5.14.0/conf/
vim hive-site.xml
#添加以下文件内容

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://node03:3306/hive?createDatabaseIfNotExist=true</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>Mysql@node03</value>
        </property>
        <property>
                <name>hive.cli.print.current.db</name>
                <value>true</value>
        </property>
        <property>
                <name>hive.cli.print.header</name>
                <value>true</value>
        </property>
        <property>
                <name>hive.server2.thrift.bind.host</name>
                <value>node03</value>
        </property>
<!--
        <property>
                <name>hive.metastore.uris</name>
                <value>thrift://node03.hadoop.com:9083</value>
        </property>
-->
</configuration>

3.3 上传mysql驱动包

上传mysql驱动包至/export/servers/hive-1.1.0-cdh5.14.0/lib下

这里使用对应版本的驱动包或者更新的驱动包即可。

3.4 hive的交互方式

Hive交互shell

cd /export/servers/hive-1.1.0-cdh5.14.0
bin/hive
#查看所有的数据库
hive (default)> show databases; 
#创建一个数据库
hive (default)> create database myhive;
#使用该数据库并创建数据库表
hive (default)> use myhive;
hive (myhive)> create table test(id int,name string);

以上命令操作完成之后，一定要确认mysql里面出来一个数据库hive

HiveJDBC服务

启动hiveserver2服务
```
#前台启动
cd /export/servers/hive-1.1.0-cdh5.14.0
bin/hive --service hiveserver2
#后台启动
cd /export/servers/hive-1.1.0-cdh5.14.0
nohup bin/hive --service hiveserver2 &
```
beeline连接hiveserver2
```
bin/beeline
beeline> !connect jdbc:hive2://node03:10000
```
注意：如果使用beeline方式连接hiveserver2，一定要保证hive在mysql当中的元数据库已经创建成功，不然就会拒绝连接，这里的端口是hive连接mysql的端口，不是mysql的端口，不建议更改。

Hive命令

#使用 –e 参数来直接执行hql的语句
bin/hive -e "use myhive;select * from test;"
#使用 –f  参数通过指定文本文件来执行hql的语句
vim hive.sql
use myhive;select * from test;
bin/hive -f hive.sql


## 四、Hbase搭建

### 1 上传安装

1.1 上传

这里hbase版本为`hbase-1.2.0-cdh5.14.0.tar.gz `

1.2 解压

?```bash
tar -zxvf /export/softwares/hbase-1.2.0-cdh5.14.0.tar.gz -C /export/servers/

2 配置

所有的配置位于$HBASE_HOME/conf/目录下:

cd /export/servers/hbase-1.2.0-cdh5.14.0/conf/

这里需要将hdoop的hdfs-site.xml和core-site.xml放到该目录下：

cp /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/hdfs-site.xml /export/servers/hbase-1.2.0-cdh5.14.0/conf/
cp /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml /export/servers/hbase-1.2.0-cdh5.14.0/conf/

2.1 hbase-env.sh

#添加java运行环境
export JAVA_HOME=/export/servers/jdk1.8.0_141
#配置hbase使用外部的zk“
export HBASE_MANAGES_ZK=false

这里的java路径配置为当前节点的javahome即可

2.2 hbase-site.xml

<configuration>
		<!-- 指定hbase在HDFS上存储的路径 -->
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://node01:8020/hbase</value>
        </property>
		<!-- 指定hbase是分布式的 -->
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
		<!-- 指定zk的地址，多个用“,”分割 -->
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>node01:2181,node02:2181,node03:2181</value>
        </property>
	</configuration>

替换配置中字节的zk集群几点即可

2.3 regionservers

配置region节点，可根据实际情况更改即可

node01
node02
node03

2.4 backup-masters

vim backup-masters
#添加备用节点主机名映射即可
node02

3 分发

将配置好的分发到其他节点

cd /export/servers
scp -r hbase-1.2.0-cdh5.14.0/ node02:$PWD
scp -r hbase-1.2.0-cdh5.14.0/ node03:$PWD

4 启动测试

确保zk和hdfs已经启动这里使用jps命令查看进程即可：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iaKgyueU-1628870362681)(http://picbed.vicjax.top/Install&Config/20191122233005hadoop-env-jps.png)]

#主节点启动
cd /export/servers/hbase-1.2.0-cdh5.14.0/bin
bash start-hbase.sh

浏览器访问masetre-node:60010查看成功画面：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0r3y7JvP-1628870362682)(http://picbed.vicjax.top/Install&Config/20191122232201hadoop-env-habse.png)]

命令行使用jps查看进程：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R2nseQN5-1628870362683)(C:\Users\sword\AppData\Roaming\Typora\typora-user-images\image-20191122233222341.png)]

五、Spark搭建

1. 准备

上传

这里下载的是spark-3.0.3-bin-hadoop2.7.tgz安装包，上传至/export/softwares/下

解压

tar -zxvf /export/softwares/spark-3.0.3-bin-hadoop2.7.tgz -C /export/servers/

2. 配置

配置文件位于/export/servers/spark-3.0.3-bin-hadoop2.7.tgz/conf下，这里配置的是高可用spark集群，需要依赖zk

2.1 spark-env.sh

cp spark-env.sh.template spark-env.sh
vim spark-env.sh
#添加以下内容 请根据实际需求进行更改
#配置java环境变量
export JAVA_HOME=/export/servers/jdk1.8.0_141
#指定spark主节点Master
# export SPARK_MASTER_HOST=node01
# 高可用模式下使用下面方式配置主节点
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181  -Dspark.deploy.zookeeper.dir=/spark"
#指定Master的端口
export SPARK_MASTER_PORT=7077

2.2 spark-slaves

cp slaves.template slaves
vim slaves
#添加以下内容 请根据需要添加或删除
node02
node03

3. 分发

向其他节点分发配置好的spark

cd /export/servers
scp -r spark-3.0.3-bin-hadoop2.7/ node02:/export/servers
scp -r spark-3.0.3-bin-hadoop2.7/ node03:/export/servers

4. 添加环境变量

将spark添加到环境变量，需要每台机器都执行

vim /etc/profile
#添加以下内容
export SPARK_HOME=/export/servers/spark-3.0.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
#编译配置文件
source /etc/profile

5. 启动测试

任意节点启动spark

cd /export/servers/spark-3.0.3-bin-hadoop2.7/sbin/
bash start-all.sh

另外一台启动master配置高可用
```
cd /export/servers/spark-3.0.3-bin-hadoop2.7/sbin/
bash start-master.sh
```
停止集群只需将start换成stop即可
测试cli界面

使用jps命令即可：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3ZdyDhd7-1628870362685)(http://picbed.vicjax.top/Install&Config/20191123003403spark-env-jps.png)]
测试web界面
```
# 这里使用主节点即可
http://node01:8080 
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HK0UU78I-1628870362686)(http://picbed.vicjax.top/Install&Config/20191123003624spark-env-web.png)]
R_PORT=7077


2.2 spark-slaves

```bash
cp slaves.template slaves
vim slaves
#添加以下内容 请根据需要添加或删除
node02
node03

3. 分发

向其他节点分发配置好的spark

cd /export/servers
scp -r spark-3.0.3-bin-hadoop2.7/ node02:/export/servers
scp -r spark-3.0.3-bin-hadoop2.7/ node03:/export/servers

4. 添加环境变量

将spark添加到环境变量，需要每台机器都执行

vim /etc/profile
#添加以下内容
export SPARK_HOME=/export/servers/spark-3.0.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
#编译配置文件
source /etc/profile

5. 启动测试

任意节点启动spark

cd /export/servers/spark-3.0.3-bin-hadoop2.7/sbin/
bash start-all.sh

另外一台启动master配置高可用
```
cd /export/servers/spark-3.0.3-bin-hadoop2.7/sbin/
bash start-master.sh
```
停止集群只需将start换成stop即可
测试cli界面

使用jps命令即可：

[外链图片转存中…(img-3ZdyDhd7-1628870362685)]
测试web界面
```
# 这里使用主节点即可
http://node01:8080 
```
[外链图片转存中…(img-HK0UU78I-1628870362686)]

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-08-15 15:39:36 更:2021-08-15 15:42:21

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/4 19:58:00-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码