| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> datax之job task channel taskgroup 详解 -> 正文阅读 |
|
[大数据]datax之job task channel taskgroup 详解 |
JobContainer 是什么? jobContainer 是许多job的组合体,比如我有个任务是同时读取mysql和oracle的表然后写导hdfs的。此时mysqlreader+oraclereader打包起来就是一个container。但是实际来说我们都是只有一种reader的。 job是什么? 简单的理解就是我要 mysql->hdfs这这任务就是一个job task是什么? task是job的更细层次划分,比如mysql id 1->100w 共计100w条数据 我把 mysql->hdfs 这个job划分为10个task mysql 1-10w ->hdfs mysql 10-20w->hdfs 。。。。 mysql 90w-100->hdfs 这十个任务每个任务就是一个task。 taskgroup 是什么? 顾名思义就是将几个task划分为一个小组进行管理。几个呢?5个。可以在datax_home/conf/core.json调整。 ? channel是什么? channel可以理解为在部分的job 种可以控制 taskgroup的数量。可以控制并发数 例如mysql postgresql oracle 这种 task的数量=channel数*5+1, 但是hdfsreader这种 设置channel数多少也不起作用。 下面是源码的学习和分析。 JobContainer.java ?这里是将一个job切分为多个任务,这里我还是举例,oraclereader->oraclewriter channel=10 注意我们之前配置的json只是job的config。 doReaderSplit的返回值就是task的config,taskconfig和jobconfig的不同有,里面加个标记 类似reader=oracle,然后job的sql是 select * from t? ,taskconfig是 select * from t where? xx<id<xx
dowriterSplit的返回值就是writerTaskConfig,其实就是jobconfig。 备注:我这里全都是简化的比喻,有的人写多个oraclewriter和多个oraclereader,然后table里有多个表,由于情况比较多我就不举例了,只说最常用的情况。
这里还有个transformerList 怎么说?我查了参数没有 暂且看作0 那么此时readerTaskConfigs.size=51, writerTaskConfigs.size=51 这个merge方法的作用就是把readerTaskConfig和writerTaskConfigs 组装起来,成为了一个完整的taskconfig,同时还给task编号1 ,2,3,4....51. 举个简单例子 就是将这个job复制了51份,每一份reader的查询内容不一样,将where切分为了51份。
?最后this.configuration是jobConfguration,将contentConfig(51个taskConfig)set到jobContent里,?至此 JobContainer的start方法中的 split就完了。 然后重点是schedule方法,怎么分配这51个任务好好工作?
可以看到打印的日志和我的备注一样。? 此时这一步schedule就完了,然后就是执行。 继续查看 ? ?注意看此时是根据taskgroup为单位开始任务的 ?后面就很清楚了。就是开启线程池提交任务,然后就是监控任务。 那么我们任务实际的速度肯定和线程的个数有关,此时就开启了两个线程。 但是转眼一想不对啊 原先1个线程->2个线程,那任务不会提升那么明显。 接着看TaskGroupContainer的start 方法由于较长。截取关键的 ?判断正在运行的任务是否是小与channel数的,如果小于channel数,则让任务运行。这里的channel数因为在划分到taskgroup那个阶段也拆分了。所以每个taskGroup为5个channel。 那么我们从头梳理一下 1个job 2个taskGroup 10个channel 51个task。 实际上是将task划分到两个group管理,group1里可以同行运行5个task,group2里可以同时运行5个task,那么并发数量就是channel。 怎么验证的这个并发数?很简单继续看日志 ?可以看到最开始就是5个start,然后就是1个end,紧接着一个又开始start。 只要有一个end 立马就有start,那么taskGroup[0]就是5个并发,和我们拆想的一样。 看datax的githu的介绍 ? 核心模块介绍:
DataX调度流程: 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:
根据上面的例子就是我说的 100个task? 20个并发就是20个channel? ?20/5=4个taskgroup 每个taskgroup内的task 100/4=25 但是能够同时运行的任务是 20个channel =20个并发。 由此 我们得到什么结论? 这个参数就是代表了taskGroup的并发度。 那么此时我有一个疑问了? 1个taskGroup 管理50个任务 10个并发度 和切分后 2个taskGroup 分别管理25个任务和5个并发度,这两种有什么区别嘛? 说实话我是没有看出区别,但是datax这么设计应该还是有它的原因的。 未完待续。。后面使用过程中如果想到了再补充 ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 6:40:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |