IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> flink watermark -> 正文阅读

[大数据]flink watermark

flink1.12版本开始,事件事件作为默认的时间语义

工厂生产的商品上面印有时间戳,八点到九点的商品要坐一班车运走,商品从生产到运上车中间有一定的时间间隔,班车不能以系统时间作为时间判断标准,而应该以商品上面自带的时间戳作为时间判断标准,八点十分的商品来了,班车认为现在时间到了八点十分,九点钟的商品来了,班车认为现在时间到了九点,那么班车就带着[8,9)的商品出发了
但是这样的话只有当前的班车知道现在时间是多少,后面的班车不知道现在时间(逻辑时间),那么后面的班车就不能进行时间相关的操作 应该有一个标志来指明当前数据流里面时钟到底是怎么样前进的,而且这些标志需要从前边的算子任务传递到后面的算子任务,即使当前窗口数据没有输出,也要把当前时钟的标志传递到下游,下游的任务就不用依赖数据里面的标签了

那么水位线就是用来指明当前逻辑时钟进展的标记 (毫秒数)

问题一:如果数据稀疏,来一个数据判断一下时间戳,插入对应的水位线,没问题
但是如果数据非常稠密,同一毫秒有海量的数据到来,这时候如果还每一条数据都判断时间戳,插入水位线,就做了大量的无用功
解决方法:周期性的生成水位线

问题二:数据是乱序的,比方说八点二十的数据已经到了,八点十分的数据才到,这时候再按照迟到的八点十分的数据生成水位线就倒退了,但是时间一定是单调递增的,时间是不能倒退的
解决方法:判断当前最新的时间戳是否比之前最大的时间戳要大,如果大的话,时间才超前进展,如果小,那就是一个迟到数据,对时间的进展没有贡献
周期性生成水位线,保留之前所有数据中最大时间戳,需要插入水位线的时候,直接以它作为时间戳生成新的水位线

问题三:如何处理迟到数据
解决方法:经验性的给一个延迟时间
两种方案:1.比方说[0-9)秒的窗口,给了2秒的延迟,那么等到11秒水位线生成的时候才发车 2.[0-9)秒的窗口,给了2秒的延迟,最大时间戳为9秒的时候,生成的水位线减两秒,最大时间戳为11秒的时候,生成的水位线减两秒,也就是九秒,刚好发车 两种处理方法是等价的,但是后面一种更好理解,所以我们选择后面一种

设置水位线离源越近越好

允许延迟
.allowedLateness(Time.minutes(1))

侧输出流
OutputTag<> outputTag = new OutputTag<>(“late”){};

.sideOutputLateData(outputTag)

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-05-01 15:49:32  更:2022-05-01 15:50:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 1:02:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码