| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 肝Spark源码的若干骚操作 -> 正文阅读 |
|
[大数据]肝Spark源码的若干骚操作 |
前言我想起一句话,“不走弯路本身就是最好的捷径”。我一直相信,想要熟悉一个软件工程最彻底的办法就是肝源码。从我个人的职业生涯中,大凡这种大型点的工程,要想真正在自己电脑上跑起来总是有这样那样的问题最后导致跑不起来,最后落个从入门到放弃的下场,然后就没有然后了。为了减少此类事件,分享一些我的土方法,期望砸键盘之前可以再看看还能不能抢救一下。 编译源码代码弄到本机器的时候,第一件事情是需要编译,参考我之前的文章 Spark3.0源码编译打包 工程导入编译之后的项目会把依赖库下载到本机,这个也是提前需要编译成功的原因,直接导入选择maven工程即可,因为本机有依赖库,直接就构建项目,导入之后的效果如图: 跑代码我们目标是需要把这个工程给跑起来,这一步非常重要,看代码和跑代码是完全不一样的两个境界,而且很多场景跑起来才知道咋回事!
调试方法Spark源码里面有一些像隐式转换,柯里化,函数类型的参数等一些语法特性,加上本身核心代码都是大师级的人写的,设计上其实比较巧妙,一开始的时候程序一下子从哪里执行到哪里都一脸懵逼,这个情况我的做法就是,直接在关键的点去增加我要打印信息代码,然后再执行,不断去探索里面的执行逻辑。
很长时间比较晕,后面不断往前找
最后在RDDOperationScope中找到了实现的具体逻辑,然后我就直接去上面输入一些打印的代码:
WordCount 的引入WordCount其实是需要深入研究的,中间涉及了文件的读取,分发,shuffe等全部操作的,但是有做到了最简洁,我把我调整之后的逻辑发出来:
在最后让程序不停止,这样子可以看到我们的执行SparkUI,便于分析,注意观察日志,URL会日志中进行打印 改代码来点参与感如果想要来一波修改源码的,找找感觉,我们直接来操作一波。 然后我们一波改动之后的变化,可以直接看到我们的for_test起作用了 改&&写单元测试我们有时候期望把一段逻辑扣得比较细的时候,这种时候大规模的拉起整个项目不大合适了,事实上源码上面本身很多单元测试的案例,上有各种的上下文初始化环境准备,以及针对具体功能的测试,这个又是一大宝贵的学习资源库里,在那基础之上,我们针对性去写自己的测试代码,对特定的功能理解很有帮助。 单元测试在test目录下面,而且结构是和源代码对应起来的: 举例说明:
然后当然是跑起来,这样一来就可以定制化去测试自己关注的内容了。 后记整体来说当年就是不断这样子去弄就慢慢入门了,不至于跑不出来就放弃,到了自己本机可以玩的时候再慢慢迁移到分布式环境上面倒腾,大概从入门到不放弃就是这样子的吧,希望对同学们有帮助。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 18:57:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |