flink名词解释
1、有限数据流即数据已经产生,数据大小已经确定,数据有限,可以做离线计算。 2、无线数据流即数据一旦产生,不知道什么时候结束,比如数据写入kafka,数据无限,可以做实时计算。 3、Task(任务) Task是一个阶段多个功能相同的subTask的集合,类似于spark中的Taskset。 4、**subTask(子任务)**subTask是flink任务中最小执行单元,是一个java类的实例,有属性和方法,完成具体的计算逻辑。 5、**Operator Chains(算子链)**没有Shuffer的多个算子合并在一个subTask中,就形成了Operator Chains,类似于spark的pipeline。 6、**slot(插槽)**flink中计算资源进行隔离的单元,一个slot中可以运行多个subTask,但是这些subTask必须是来自同一个application的不同阶段的subTask。
Flink架构体系介绍
Flink真正用来做执行操作的,叫做Worker,进程在不同的环境模式下运行,如:使用Standalone集群模式启动,JobManager叫StandaloneSessionClusterEntrypoint,TaskManager叫TaskManagerRunner,使用yarn模式启动,进程又有所不同。
JobManager介绍:
JobManager也称之为Master,用于协调分布式执行,它用来调度task,协调检查点,协调失败时恢复等,Flink运行时至少存在一个Master,如果配置高可用模式,则会有多个Master,它们其中有一个是Lender,其他的都是Standby。
TaskManager介绍:
也称之为Worker,用于执行一个dataflow的Task,数据缓冲和DataStream的数据交换,Flink运行时至少存在一个Worker,TaskManager和JobManager可以直接运行在物理机上,或者运行在Yarn这样的资源调度框架上,TaskManager通过网络连接到JobManager,通过RPC通信告知自身的可用性进而获得任务分配。
Flink架构流程介绍 解释一:
TaskManager相当于给task提供执行环境,JobManager相当于主节点,TaskManager相当于从节点,JobManager用来负责管理,TaskManager用来执行具体task,他们之间也要通过网络进行RPC通信,RPC通信底层是Akka,我们还会用一个客户端,客户端用来提交任务。
客户端提交任务,首先会与JobManager进行通信,我们在本地写程序,程序会构建成一个类似spark的DAG(在flink中叫DATAFlow graph),将dataflow graph提交到JobManager,JobManager会将dataflow graph切分成多个task,将Task调度到TaskManager中执行。
使用客户端提交任务:
- 使用命令行提交
- 使用web界面提交
Flink架构流程介绍 解释二
了解大数据实时计算
1、Program Code:我们编写的 Flink 应用程序代码
2、Job Client:Job Client 不是 Flink 程序执行的内部部分,但它是任务执行的起点。Job Client 负责接受用户的程序代码,然后创建数据流,将数据流提交给 Job Manager 以便进一步执行。执行完成后,Job Client 将结果返回给用户
3、Job Manager:主进程(也称为作业管理器)协调和管理程序的执行。它的主要职责包括安排任务,管理 checkpoint ,故障恢复等。机器集群中至少要有一个 master,master 负责调度 task,协调 checkpoints 和容灾,高可用设置的话可以有多个 master,但要保证一个是 leader, 其他是 standby; Job Manager 包含 Actor system、Scheduler、Check pointing 三个重要的组件
4、Task Manager:从 Job Manager 处接收需要部署的 Task。Task Manager 是在 JVM 中的一个或多个线程中执行任务的工作节点。任务执行的并行性由每个 Task Manager 上可用的任务槽(Slot 个数)决定。每个任务代表分配给任务槽的一组资源。例如,如果 Task Manager 有四个插槽,那么它将为每个插槽分配 25% 的内存。可以在任务槽中运行一个或多个线程。同一插槽中的线程共享相同的 JVM。
同一 JVM 中的任务共享 TCP 连接和心跳消息。Task Manager 的一个 Slot 代表一个可用线程,该线程具有固定的内存,注意 Slot 只对内存隔离,没有对 CPU 隔离。默认情况下,Flink 允许子任务共享 Slot,即使它们是不同 task 的 subtask,只要它们来自相同的 job。这种共享可以有更好的资源利用率。 Flink到底能不能实现exactly-once语义
Flink时间与窗口
谈谈flink内存管理
谈谈Flink DataStream流计算中的优化(持续更新)
Flink状态管理和容错机制介绍
Flink 源码解析
Flink作业重启后,如何保证不丢失数据?
Flink学习
Flink教程
Flink基础版本1
|