开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark简述 -> 正文阅读

[大数据]Spark简述

什么是spark

官网概述：
Spark是一个基于内存的开源计算框架，于2009年诞生于加州大学伯克利分校AMPLab（AMP：Algorithms，Machines，People），它最初属于伯克利大学的研究性项目，后来在2010年正式开源，并于 2013 年成为了 Apache 基金项目，到2014年便成为 Apache 基金的顶级项目，该项目整个发展历程刚过六年时间，但其发展速度非常惊人。
正由于Spark来自于大学，其整个发展过程都充满了学术研究的标记，是学术带动Spark核心架构的发展，如弹性分布式数据集（RDD，resilient distributed datasets）、流处理（Spark streaming）、机器学习（MLlib）、SQL分析（Spark SQL）和图计算（GraphX），本节将主要介绍Spark发展历程和特点。

大致就是这样：（简单来说就是一个大数据的计算框架，相较于Hadoop的计算框架速度会有显著的变化，在这里面可以写python、scala、Java等代码，推荐Scala，因为我们可以看到spark框架基本上都是Scala代码去构建的）
在这里插入图片描述

在这里插入图片描述

spark读取数据与MR读取数据的不同

实际上spark并没有自己读取HDFS文件的方式，底层默认使用的是mapreduce的方式(切片的方式，格式化数据的方式)去将文件读取进来
Hadoop也有自己本身的计算框架mapreduce，那我们为什么还要接触spark呢，这里就要提到spark的计算速度，由于spark是基于内存做计算，结果不落地；而mapreduce是基于磁盘做计算，中间会涉及到磁盘IO的读写，以及网络IO，会比较耗时，所以spark的计算速度相较于mapreduce做计算会有显著的提升

1、一个是从HDFS上读到数据，再写到HDFS，基于磁盘计算，中间有磁盘IO，网络IO，比较耗时
在这里插入图片描述
2、每一次mapreduce拿数据的时候都是从HDFS上读取数据，比较麻烦，spark直接从内存中读取数据，更加快速

RDD五大基本特性

RDD五大特性:
1、RDD是由一系列分区组成的，默认一个切片对应一个分区
2、算子是作用在每一个分区上的，每一个分区对应一个切片
3、RDD之间是有一系列的依赖关系的，依赖关系有两种:宽依赖(有shuffle)，窄依赖(没有shuffle)
4、分区类算子只能作用在k-v格式的RDD上
5、spark给每个task提供最佳的计算位置，移动计算，不移动数据

什么是RDD

在这里插入图片描述
我们可以看到我们在写spark代码的时候会出现RDD这种东西，那什么是RDD呢

RDD：弹性分布式数据集
RDD不存储数据，数据来源于HDFS，我们这里都只是模拟一个分布式的环境还没有搭建Yarn版本的spark；spark只是一个编程模型，在这之上使用各种算子去完成数据分析需求

如何分别宽窄依赖

如何分别宽窄依赖:
1、看有无shuffle阶段，有，就是宽依赖;无，就是窄依赖
2、从父RDD的角度来观察，父是一对一的关系，就是窄依赖;父是一对多的关系，就是宽依赖

宽依赖会有shuffle阶段，shuffle会落地产生磁盘文件，如果要进行网络传输那么就会有一个序列号的过程，在数据落到磁盘的时候会进行压缩，默认是hash分区

宽依赖会将数据分成不同的stage
Stage实际上是一组可以并行计算的task
Stage可以看成一个Map任务或者Reduce任务

五大特性的一一介绍

这里我们用WordCount单词计数来举例

在这里插入图片描述

spark几种模式

在这里插入图片描述
local模式多用于测试使用
standalone模式是将自己电脑本地模拟成大数据环境进行运行，需要在自己本地搭建一个Hadoop环境
yarn模式就是继承了分布式的环境

搭建spark

local模式

在自己的idea中配置完spark之后，就可以直接使用local模式了
idea里搭建spark可以看我这篇博客，这是我去年同一时间写的博客
在IDEA里运行spark

standalone模式（spark自带的资源管理框架）

1、上传解压，配置环境变量配置bin目录
2、修改配置文件 conf
cp spark-env.sh.template spark-env.sh
增加配置
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

#这是worker的核数
export SPARK_WORKER_CORES=2
#这是指定每台机子上面有几台work
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/opt/modules/jdk1.8.0_171

master相当于RM worker相当于NM

增加从节点配置
cp slaves.template slaves

node1
node2

增加从节点

3、复制到其它节点
scp -r spark-2.4.5 node1:pwd
scp -r spark-2.4.5 node2:pwd

4、配置spark的环境变量

5、在主节点执行启动命令
启动集群，在master中执行
./sbin/start-all.sh

http://master:8080/ 访问spark ui

spark的standalone模式是主从结构，所以最后master端出现Master，node1和node2出现Worker则成功
在这里插入图片描述
配置完之后，在8088端口都可以看到自己有哪些worker，和哪些运行的节点

测试standalone模式

standalone模式是需要将写完的代码打成jar包放到集群上面运行

standalone client模式 日志在本地输出，一般用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /opt/modules/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
在这里插入图片描述

standalone cluster模式上线使用，不会再本地打印日志

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

这里就已经运行完成了，但是在本地看不到日志文件
在这里插入图片描述
需要在8080端口查看

这两个一个是结果打印，一个是日志打印
在这里插入图片描述

yarn模式

在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群
在spark sbin目录下执行 ./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址
spark的conf中：
vim spark-env.sh
增加
export HADOOP_CONF_DIR=/opt/modules/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/opt/modules/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-yarn.sh

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

3、同步到其他节点，重启yarn
scp -r yarn-site.xml node1:pwd
scp -r yarn-site.xml node2:pwd

启动yarn
start-yarn.sh

4、spark on yarn client模式日志在本地输出，一班用于上线前测试
/opt/modules/spark-2.4.5/examples/jars目录下：
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100

5、spark on yarn cluster模式上线使用，不会再本地打印日志减少io
/opt/modules/spark-2.4.5/examples/jars目录下：
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

hdfs webui
http://node1:50070

yarn ui
http://node1:8088

感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。