开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 全国大学生大数据技能竞赛（Spark on Yarn安装） -> 正文阅读

[大数据]全国大学生大数据技能竞赛（Spark on Yarn安装）

系列文章

全国大学生大数据技能竞赛（Hadoop集群搭建）

全国大学生大数据技能竞赛（数仓部署）

文章目录

系列文章
前言
资料链接
- Spark on Yarn安装
- - 3.1安装Scala
  - 3.2安装Spark

前言

本篇博客根据往年全国大学生大数据技能竞赛资料搭建，每一个步骤都有相应的执行的截图。以下博客仅作为个人搭建过程的记录~如有不足之处欢迎指出，共同学习进步。附上资料链接。

资料链接

青椒课堂（红亚）网站链接：
https://www.qingjiaoclass.com/login
所有环境工具百度网盘链接：
https://pan.baidu.com/s/1oOW7WqHK4fiqv4Xja5f7gQ
提取码:vvi7

Spark on Yarn安装

3.1安装Scala

1.把Scala的jar包上传到master的目录下，创建工作路径并解压Scala到工作路径下

mkdir -p /usr/scala/
tar -zxvf scala-2.11.12.tgz -C /usr/scala/

等待执行完毕
在这里插入图片描述
2.配置环境变量（三台虚拟机）

vi /etc/profile

添加

#set scala
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH

在这里插入图片描述

source /etc/profile

3.查看是否安装成功

scala -version

在这里插入图片描述
4.复制 scala 到子节点

scp -r /usr/scala root@slave1:/usr/
scp -r /usr/scala root@slave2:/usr/

5.分别切换 slave1 和 slave2 节点，检测 scala 环境是否安装成功

scala -version

在这里插入图片描述

3.2安装Spark

1.把spark的jar包上传到master的目录下，创建工作路径并解压spark到工作路径下

mkdir -p /usr/spark/
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

在这里插入图片描述
2.编辑spark-env.sh

cd /usr/spark/spark-2.4.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

添加

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/Hadoop

在这里插入图片描述
3.配置spark从节点，修改slaves文件

cp slaves.template slaves
vi slaves

修改最后一行

slave1
slave2

在这里插入图片描述
4.配置环境变量（三台虚拟机）

vi /etc/profile

添加

export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

在这里插入图片描述
然后

source /etc/profile

5.分发子节点

scp -r /usr/spark root@slave1:/usr/
scp -r /usr/spark root@slave2:/usr/

6.测试运行环境（只在master节点执行）

开启Hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

开启spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

在这里插入图片描述
7.三个节点分别输入jps查看进程

jps

三个节点分别出现以下标志即成功
在这里插入图片描述

8.访问spark web界面
浏览器输入

master节点IP：8080

出现以下界面即成功
在这里插入图片描述
9.开启spark-shell

spark-shell

可输入命令测试

println("Hello world")

在这里插入图片描述
10.输入pyspark测试python环境spark交互模式

pyspark

在这里插入图片描述
输入quit()可退出

结束结束结束~~

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-09-02 11:26:45 更:2021-09-02 11:29:12

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/30 6:54:14-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码