[大数据] Flink程序的分布式执行模型

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Flink程序的分布式执行模型 -> 正文阅读

[大数据]Flink程序的分布式执行模型

1、任务和任务链

在分布式计算环境中，Flink会将同一个Flink程序中具有依赖关系的多个操作符的子任务链接到一起形成一个任务链，每一个任务链都是由一个独特的线程进行执行。这样的优点：它减少了线程的切换和缓冲的开销，并在减少延迟的同时提高了总体的吞吐量(序列化和反序列化的影响，减少数据在缓冲区的交换)

在这里插入图片描述
假定该程序中Source，Map，KeyBy/Window操作符的并行度均为2，而Sink操作符的并行度均为1，由于Flink会尽可能地将多个操作符的子任务链接成一个任务链。我们首先看看如下的程序流图

在这里插入图片描述
上图是程序优化前的数据流并行化视图

因为Source算子和Map算子之间的数据传递是一对一模式，KeyBy/Window则是个shuffle操作，而又因为Source算子和Map算子的任务并行度相同，可以链接成一个任务链。KeyBy/Window则单独形成一个任务链。Sink操作符子任务不会与KeyBy/Window操作符形成一个任务链。因为并行度不同。以下是数据流优化之后视图

在这里插入图片描述
最后以上就形成了5个任务(5个任务链)，然后交由5个并行的线程去执行任务。

2、任务槽和资源

Flink架构分为JobManager和TaskManager，每个任务管理器对应的就是一个JVM进程(TaskManager)，进程中对应分配资源(网络，磁盘，CPU，内存)，进程中又至少又一个线程来执行任务。而Flink程序中的每个子任务就是运行在独立的线程中，为了控制一个任务管理器接收能处理的任务的数量，在任务管理器中引入了任务槽这个概念。

在任务管理器中只有有一个任务槽，而这个任务槽又是进程所分配资源的资源子集。这样可以在一个任务管理器中运行多个子任务。

根据第一部分的图，我们可以画出该Flink程序的子任务在任务槽中的分布图：

在这里插入图片描述

任务槽是静态的概念，指的是任务管理器最多能同时并发执行的任务数量，可以通过在flink-conf.xml文件中修改taskmanager.numberOfTaskSlots参数进行配置。而Flink程序中任务的并行度是动态的概念，指的是在任务管理器中运行该程序时实际使用的任务槽数通过修改flink-conf.xml文件中修改parallelism.default参数去配置Flink程序默认的并行度。