IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 3.Spark运行模式—YARN模式—搭建运行环境、提交应用、配置历史服务器 | Windows10运行模式 -> 正文阅读

[大数据]3.Spark运行模式—YARN模式—搭建运行环境、提交应用、配置历史服务器 | Windows10运行模式

第4章 运行模式—YARN模式

  • (重要) 此模式需要创建另外两台虚拟机,可以从目前的虚拟机中拷贝,具体步骤请参考博客:虚拟机环境准备 中第1.1小节末尾处的描述。
  • (重要) 虚拟机环境准备好之后,虚拟机上安装的Hadoop也需要进行相应的配置,详情可参考:完全分布式运行模式 中第4.5小节进行操作。

4.1 搭建运行环境

4.1.1 进入到Spark安装包路径下

[xqzhao@hadoop100 ~]$ cd /opt/software/

4.1.2 解压安装文件到/opt/module下面

[xqzhao@hadoop100 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/

4.1.3 查看是否解压成功

[xqzhao@hadoop100 software]$ ls /opt/module/
spark-3.0.0-bin-hadoop3.2	

// 重命名文件夹—使用 `YARN模式`[xqzhao@hadoop100 module]$ mv spark-3.0.0-bin-hadoop3.2 spark-yarn

4.2 修改配置文件

  • (1) 修改 hadoop 配置文件/opt/module/hadoop-3.2.1/etc/hadoop/yarn-site.xml(主机: hadoop100), 并分发
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property>
	<name>yarn.nodemanager.pmem-check-enabled</name>
	<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>
  • (2) 修改 Spark 配置文件 conf/spark-env.sh,添加 JAVA_HOMEYARN_CONF_DIR 配置
[xqzhao@hadoop100 conf]$ mv spark-env.sh.template spark-env.sh

# 设置如下信息:
export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop-3.2.1/etc/hadoop

4.3 启动 HDFS 以及 YARN 集群

4.4 提交应用

注:直接提交应用,不需要启动 Spark集群

[xqzhao@hadoop100 spark-yarn]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

运行效果如下图所示:
在这里插入图片描述
查看 http://hadoop101:8088 页面,点击 History(滑动到最右侧可以看到),查看历史页面:
在这里插入图片描述


4.5 配置历史服务器

  • (1) 拷贝一份spark-defaults.conf.template并命名为spark-defaults.conf
[xqzhao@hadoop100 conf]$ cp spark-defaults.conf.template spark-defaults.conf
  • (2) 修改spark-default.conf文件,配置日志存储路径
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop100:8020/directory

注意:需要启动 hadoop 集群,HDFS 上的 directory 目录需要提前存在。

[xqzhao@hadoop100 spark-standalone]$ sbin/start-dfs.sh
[xqzhao@hadoop100 spark-standalone]$ hadoop fs -mkdir /directory
  • (3) 修改spark-env.sh文件, 添加日志配置
[xqzhao@hadoop100 spark-standalone]$ vim conf/spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop100:8020/directory 
-Dspark.history.retainedApplications=30"
  1. 参数1含义:WEB UI 访问的端口号为 18080
  2. 参数2含义:指定历史服务器日志存储路径
  3. 参数3含义:指定保存Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
  • (4) 修改 spark-defaults.conf
spark.yarn.historyServer.address=hadoop100:18080
spark.history.ui.port=18080
  • (5) 启动集群和历史服务
[xqzhao@hadoop100 spark-standalone]$ sbin/start-history-server.sh
  • (6) 重新执行任务
[xqzhao@hadoop100 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

运行效果如下图所示:
在这里插入图片描述

  • (7) Web 页面查看日志:http://hadoop101:8088
    在这里插入图片描述

第5章 Windows10模式

5.1 解压缩文件

将文件 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到无中文无空格的路径中。

5.2 启动本地环境

  • (1) 执行解压缩文件路径下 bin 目录中的 spark-shell.cmd 文件,启动 Spark 本地环境
    在这里插入图片描述

  • (2) 在 bin 目录中创建 input 目录,并添加 word.txt 文件, 在命令行中输入下面的脚本代码:

sc.textFile("input/word.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

在这里插入图片描述

5.3 命令行提交应用

  • 在Spark目录的bin目录中,输入 cmd 并回车,打开DOS命令行窗口,如下图所示:
    在这里插入图片描述
  • 在 DOS 命令行窗口中执行提交指令:
spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-3.0.0.jar 10

输出结果如下图所示:
在这里插入图片描述


声明:本文是学习时记录的笔记,如有侵权请告知删除!
原视频地址:https://www.bilibili.com/video/BV11A411L7CK

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-23 10:51:49  更:2021-07-23 10:53:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/5 7:15:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码