| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Hadoop3.x入门-Spark3.x部署 -> 正文阅读 |
|
[大数据]Hadoop3.x入门-Spark3.x部署 |
1.前言Spark集群模式包括:Local,Standalong,Yarn,Kubernetes,但在生产环境中Spark On Yarn是主流。其中,Spark提供计算服务,Yarn提供资源调度能力,HDFS提供存储。 本文介绍如何部署Spark3.1.3 On Yarn,这种模式下,Spark没有集群的概念,而是作为一个客户端组件向Yarn提交自定义Jar包程序任务,只需要将Spark相关配置配好并部署到hadoop集群中任意一个节点上即可。 本文的Spark对接的是Yarn HA高可用集群,Yarn的高可用部署《Hadoop3.x入门-搭建3节点Hadoop HA集群_-小末的博客-CSDN博客_hadoop3 ha搭建》 2.前置条件JDK1.8,一个Hadoop集群。 3.Spark on Yarn 提交jar包任务的简单流程Cluster模式: 而Client模式会将driver启动在提交任务的客户端SparkSubmit进程中,由于Driver会和Executor有数据交互,Client模式下会导致用户本机网卡流量激增,导致用户本机内存增高导致OOM等问题,生产环境谨慎使用。 4.On Yarn 部署?4.1下载Spark3.1.3 bin包下载完成后,上传到其中任意一台Hadoop节点服务器中,本文解压到hd1.dev.loval节点的/opt/module目录下。 4.2修改配置文件4.2.1yarn-site.xml
分发配置到所有节点,并重启hdfs和yarn集群。 4.2.2spark-env.sh
4.3配置Spark历史服务4.3.1?创建存放日志hdfs路径
4.3.2修改配置文件注意对接的hadoop ha集群,非ha需要指明hdfs端口,默认是8020
4.3.3启动历史服务进程
查看是否启动成功:
?如果存在则代表启动成功 4.4提交spark任务测试集群可用性提交一个client模式的计算PI的任务:
查看Yarn页面: 查看Spark JobHistory页面:? 至此Spark on Yarn一个简单demo测试完毕。? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 5:42:11- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |