| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Spark简述 -> 正文阅读 |
|
[大数据]Spark简述 |
目录什么是spark
大致就是这样:(简单来说就是一个大数据的计算框架,相较于Hadoop的计算框架速度会有显著的变化,在这里面可以写python、scala、Java等代码,推荐Scala,因为我们可以看到spark框架基本上都是Scala代码去构建的) spark读取数据与MR读取数据的不同
1、一个是从HDFS上读到数据,再写到HDFS,基于磁盘计算,中间有磁盘IO,网络IO,比较耗时 RDD五大基本特性
什么是RDD
RDD:弹性分布式数据集 如何分别宽窄依赖如何分别宽窄依赖: 宽依赖会有shuffle阶段,shuffle会落地产生磁盘文件,如果要进行网络传输那么就会有一个序列号的过程,在数据落到磁盘的时候会进行压缩,默认是hash分区 宽依赖会将数据分成不同的stage 五大特性的一一介绍这里我们用WordCount单词计数来举例 spark几种模式
搭建sparklocal模式在自己的idea中配置完spark之后,就可以直接使用local模式了 standalone模式(spark自带的资源管理框架)1、上传解压,配置环境变量 配置bin目录 #这是worker的核数 master相当于RM worker相当于NM 增加从节点配置 node1 增加从节点 3、复制到其它节点 4、配置spark的环境变量 5、在主节点执行启动命令 http://master:8080/ 访问spark ui spark的standalone模式是主从结构,所以最后master端出现Master,node1和node2出现Worker则成功 测试standalone模式standalone模式是需要将写完的代码打成jar包放到集群上面运行
需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行 spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100 这里就已经运行完成了,但是在本地看不到日志文件 这两个一个是结果打印,一个是日志打印 yarn模式在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 停止spark集群 spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件 1、增加hadoop 配置文件地址 2、往yarn提交任务需要增加两个配置 yarn-site.xml(/opt/modules/hadoop-2.7.6/etc/hadoop/yarn-site.xml) 先关闭yarn
3、同步到其他节点,重启yarn 启动yarn 4、spark on yarn client模式 日志在本地输出,一班用于上线前测试 5、spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io 获取yarn程序执行日志 执行成功之后才能获取到 hdfs webui yarn ui 感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 5:39:01- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |