IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> spark集群搭建 -> 正文阅读

[大数据]spark集群搭建

spark集群搭建

1.Standalone集群搭建与Spark on Yarn配置

Standalone:Standalone集群是Spark自带的资源调度框架,支持分布式搭建。

搭建建议:
	Standalone节点数为3台,1台master,2台worker。
	虚拟机中每台节点的内存至少给2G和2个核(core)
	这样才能保证后期Spark基于Standalone的正常运行。
2.搭建Standalone集群的步骤:
1)下载安装包,解压
1.登录Spark官网下载Spark,官网网址:spark.apache.org
2.点击“Download”找到“Spark release archives”找到对应的Spark版本下载
3.将下载好的Spark安装包上传到Master节点上,并解压
	tar -zxvf ./spark-2.3.1-bin-hadoop2.6.tgz
2) 改名
mv ./spark-2.3.1-bin-hadoop2.6 spark2.3.1
3) 进入安装包的conf目录下,复制slaves.template文件,去掉template后缀,在新的slaves文件中添加从节点并保存。
mv slaves.template slaves
4) 复制$SPARK_HOME/conf/spark-env.sh.template为spark-env.sh,并修改spark-env.sh文件,内容如下:
SPARK_MASTER_HOST:master的ip
SPARK_MASTER_PORT:提交任务的端口,默认是7077
SPARK_WORKER_CORES:每个worker从节点能够支配的core的个数
SPARK_WORKER_MEMORY:每个worker从节点能够支配的内存数
JAVA_HOME:java的home路径,这里需要jdk1.8,注意如果jdk是直接通过解压环境配置的jdk,该配置项需要配置
5) 同步到其他节点上
scp -r ./spark-2.3.1/ node1:`pwd`
scp -r ./spark-2.3.1/ node2:`pwd`
6) 启动集群:进去master节点$SPARK_HOEM/sbin目录下,执行当前目录下的./start-all.sh
./start-all.sh
7) 搭建客户端:将spark安装包原封不动的拷贝到一个新的节点上,然后,在新的节点上提交任务即可。
注意:8080是Spark WebUI界面的端口,而7077是Spark任务提交的端口
可以通过修改master的WebUI端口:
	vim $SPARK_HOME/conf/spark-env.sh
	export SPARK_MASTER_WEBUI_PORT = 9999

Yarn
Spark也可以基于Yarn进行任务调度。

Spark基于Yarn进行任务调度只需要在Spark客户端做如下配置:
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

注意:需要将每台NodeManager节点中将每台NodeManager的虚拟内存关闭,在每台NodeManager节点的$HADOOP_HOME/etc/hadoop/yarn-site.xml中加入如下配置:

<!-- 关闭虚拟内存检查 -->
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>
Spark提交任务的两个方式的命令

Standalone 提交命令:

./spark-submit --master spark://node1:7077 --calss org.apache.spark.examples.SparjPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100

Spark on Yarn 提交命令:

./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100

可以通过Spark自带的Spark Pi案例测试两种提交方式命令。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-05 17:25:10  更:2021-08-05 17:26:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/17 15:32:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码