IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> spark3.1.2基于yarn的集群安装 -> 正文阅读

[大数据]spark3.1.2基于yarn的集群安装

spark3.1.2基于yarn的集群安装

准备工作

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz -O /opt/spark-3.2.0-bin-hadoop3.2.tgz



# 创建统一目录
mkdir -p /opt/bigdata/spark

# 解压
tar xf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/bigdata/spark
cd /opt/bigdata/spark/
ln -s spark-3.1.2-bin-hadoop3.2 current

# profile文件配置
export SPARK_HOME=/opt/bigdata/spark/current
export PATH=$PATH:$SPARK_HOME/bin

# 分发profile
for i in {2..5};do scp -p /etc/profile node0${i}:`pwd`;done

集群配置

cd $SPARK_HOME/conf
mv spark-env.sh.template  spark-env.sh
mv spark-defaults.conf.template  spark-defaults.conf
mv workers.template workers




1. 在yarn-site.xml添加以下内容
<property> 
    <name>yarn.nodemanager.aux-services</name> 
    <value>mapreduce_shuffle,spark_shuffle</value> 
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
      <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
      <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
# 同步配置
for i in {2..5};do scp -p yarn-site.xml node0${i}:`pwd`;done

2. 复制Spark 对应的 jar 包放到 Hadoop 的库文件中
忘记复制此 jar 文件,那么 NodeManager 服务就无法启动
cp $SPARK_HOME/yarn/spark-3.1.2-yarn-shuffle.jar $HADOOP_HOME/share/hadoop/yarn/lib/

3. 开启 Spark 日志记录功能
cat > spark-env.sh <<-EOF
export JAVA_HOME=/usr/java/default
export HADOOP_HOME=/opt/bigdata/hadoop/current
export HADOOP_CONF_DIR=\$HADOOP_HOME/etc/hadoop/
export YARN_CONF_DIR=\$HADOOP_HOME/etc/hadoop/
EOF

cat > spark-defaults.conf <<-EOF
spark.shuffle.service.enabled true
# spark-history服务的配置
spark.eventLog.enabled true
spark.yarn.historyServer.address=node01:18080
spark.history.ui.port=18080
spark.eventLog.dir hdfs://mycluster/spark_log
spark.history.fs.logDirectory  hdfs://mycluster/spark_log
spark.history.retainedApplications 30
# jar包保留在hdfs,减少任务启动时间,两种方式选一个即可
#spark.yarn.jars  hdfs://mycluster/libs/spark_lib/jars/*
spark.yarn.archive   hdfs://mycluster/libs/spark_lib/lib_archive/spark-3.1.2-bin-hadoop3.2.zip
EOF

for i in {2..5};do scp spark-env.sh spark-defaults.conf node0${i}:`pwd`;done

4. 上传jar包到hdfs,加快启动速度
cd $SPARK_HOME
上传jar包到hdfs
hdfs dfs -mkdir -p /libs/spark_lib/
hdfs dfs -put jars /libs/spark_lib/
########################################
使用归档的
cd $SPARK_HOME/jars
zip spark-3.1.2-bin-hadoop3.2.zip ./*
hdfs dfs -mkdir -p /libs/spark_lib/lib_archive/
hdfs dfs -put spark-3.1.2-bin-hadoop3.2.zip /libs/spark_lib/lib_archive/
rm -f spark-3.1.2-bin-hadoop3.2.zip
###################################################

5. 同步包
cd /opt/bigdata/
[god@node01 bigdata]$ tar czf spark.gz spark
for i in {2..5};do scp -p spark.gz node0${i}:`pwd` ;done
# 解压
for i in {2..5};do ssh node0${i} "cd /opt/bigdata/ && tar xf spark.gz && rm -f spark.gz" ;done

所有NodeManager节点都要复制spark的jar包到hadoop
for i in {2..5};do ssh node0${i} "cp $SPARK_HOME/yarn/spark-3.1.2-yarn-shuffle.jar $HADOOP_HOME/share/hadoop/yarn/lib/ "; done


6. 重启yarn
[god@node01 hadoop]$ stop-yarn.sh
[god@node01 hadoop]$ start-yarn.sh

7. 启动spark history服务 选择在node03机器,任意
[god@node03 current]$ $SPARK_HOME/sbin/start-history-server.sh

8. 测试spark-shell
$SPARK_HOME/bin/spark-shell --master yarn
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-27 12:54:03  更:2021-10-27 12:54:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 2:45:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码