IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Flink基础 -> 正文阅读

[大数据]Flink基础

flink名词解释

1、有限数据流即数据已经产生,数据大小已经确定,数据有限,可以做离线计算。
2、无线数据流即数据一旦产生,不知道什么时候结束,比如数据写入kafka,数据无限,可以做实时计算。
3、Task(任务) Task是一个阶段多个功能相同的subTask的集合,类似于spark中的Taskset。
4、**subTask(子任务)**subTask是flink任务中最小执行单元,是一个java类的实例,有属性和方法,完成具体的计算逻辑。
5、**Operator Chains(算子链)**没有Shuffer的多个算子合并在一个subTask中,就形成了Operator Chains,类似于spark的pipeline。
6、**slot(插槽)**flink中计算资源进行隔离的单元,一个slot中可以运行多个subTask,但是这些subTask必须是来自同一个application的不同阶段的subTask。

Flink架构体系介绍

Flink真正用来做执行操作的,叫做Worker,进程在不同的环境模式下运行,如:使用Standalone集群模式启动,JobManager叫StandaloneSessionClusterEntrypoint,TaskManager叫TaskManagerRunner,使用yarn模式启动,进程又有所不同。

JobManager介绍:

JobManager也称之为Master,用于协调分布式执行,它用来调度task,协调检查点,协调失败时恢复等,Flink运行时至少存在一个Master,如果配置高可用模式,则会有多个Master,它们其中有一个是Lender,其他的都是Standby。

TaskManager介绍:

也称之为Worker,用于执行一个dataflow的Task,数据缓冲和DataStream的数据交换,Flink运行时至少存在一个Worker,TaskManager和JobManager可以直接运行在物理机上,或者运行在Yarn这样的资源调度框架上,TaskManager通过网络连接到JobManager,通过RPC通信告知自身的可用性进而获得任务分配。

Flink架构流程介绍 解释一:

TaskManager相当于给task提供执行环境,JobManager相当于主节点,TaskManager相当于从节点,JobManager用来负责管理,TaskManager用来执行具体task,他们之间也要通过网络进行RPC通信,RPC通信底层是Akka,我们还会用一个客户端,客户端用来提交任务。

客户端提交任务,首先会与JobManager进行通信,我们在本地写程序,程序会构建成一个类似spark的DAG(在flink中叫DATAFlow graph),将dataflow graph提交到JobManager,JobManager会将dataflow graph切分成多个task,将Task调度到TaskManager中执行。

使用客户端提交任务:

  1. 使用命令行提交
  2. 使用web界面提交

Flink架构流程介绍 解释二

了解大数据实时计算

1、Program Code:我们编写的 Flink 应用程序代码

2、Job Client:Job Client 不是 Flink 程序执行的内部部分,但它是任务执行的起点。Job Client 负责接受用户的程序代码,然后创建数据流,将数据流提交给 Job Manager 以便进一步执行。执行完成后,Job Client 将结果返回给用户

3、Job Manager:主进程(也称为作业管理器)协调和管理程序的执行。它的主要职责包括安排任务,管理 checkpoint ,故障恢复等。机器集群中至少要有一个 master,master 负责调度 task,协调 checkpoints 和容灾,高可用设置的话可以有多个 master,但要保证一个是 leader, 其他是 standby; Job Manager 包含 Actor system、Scheduler、Check pointing 三个重要的组件

4、Task Manager:从 Job Manager 处接收需要部署的 Task。Task Manager 是在 JVM 中的一个或多个线程中执行任务的工作节点。任务执行的并行性由每个 Task Manager 上可用的任务槽(Slot 个数)决定。每个任务代表分配给任务槽的一组资源。例如,如果 Task Manager 有四个插槽,那么它将为每个插槽分配 25% 的内存。可以在任务槽中运行一个或多个线程。同一插槽中的线程共享相同的 JVM。

同一 JVM 中的任务共享 TCP 连接和心跳消息。Task Manager 的一个 Slot 代表一个可用线程,该线程具有固定的内存,注意 Slot 只对内存隔离,没有对 CPU 隔离。默认情况下,Flink 允许子任务共享 Slot,即使它们是不同 task 的 subtask,只要它们来自相同的 job。这种共享可以有更好的资源利用率。
Flink到底能不能实现exactly-once语义

Flink时间与窗口

谈谈flink内存管理

谈谈Flink DataStream流计算中的优化(持续更新)

Flink状态管理和容错机制介绍

Flink 源码解析

Flink作业重启后,如何保证不丢失数据?

Flink学习

Flink教程

Flink基础版本1

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-14 14:08:30  更:2021-08-14 14:10:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 21:08:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码