[大数据] 在完全分布式Hadoop上搭建spark集群

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 在完全分布式Hadoop上搭建spark集群 -> 正文阅读

[大数据]在完全分布式Hadoop上搭建spark集群

完全分布式Hadoop搭建可参考一下网址
https://blog.csdn.net/weixin_44168245/article/details/118941000

搭建spark集群

先创建一个sparkCluster文件夹
请添加图片描述
将spark包解压至sparkCluster中

将解压后的文件名重命名为spark，同时把spark文件夹的权限赋给hadoop用户和hadoop组，最后配置环境变量

配置slaves文件和spark-env.sh文件（slaves文件设置Worker节点）
将 slaves.template 拷贝到 slaves，编辑slaves内容,把默认内容localhost替换成slave1,slave2
将 spark-env.sh.template 拷贝到 spark-env.sh，编辑spark-env.sh

请添加图片描述
slaves文件修改

请添加图片描述
spark-env.sh文件修改

配置好后，将Master主机上的/usr/local/spark文件夹复制到各个节点上
在slave01,slave02节点上将master复制过来的spark.master.tar.gz进行解压至指定文件夹

在slave1，slave2说修改spark-config.sh（不然启动集群会提示错误：JAVA_HOME is not set）
请添加图片描述