[大数据] flink实时生产维度表

十一之前写了个实时的维表，flink-sql实现的，技术上并不难，之前没写过，还是踩了一些坑的，特此总结下

一、需求背景

1、离线有个用户的维度表，需要搬到流上面，大概是1000万的存量数据，上游来自8个mysql表

2、可用的组件有kafka，flink，hbase，redis

3、8个表每个变更都需要下发一条完整的记录到kafka

1、首先要想好写几个Hbase维表，业务上主键要想清楚，这是每次关联都需要的，比如，这个用户维度表主键是用户id，但是可能还会有身份证id啥的做关联，这就还需要身份证id的hbase表，还需要用户id和身份证id的关联表

2、每次收到消息需要往hbase写一份，同时需要下发一条消息

3、对于聚合函数、row_number函数需要考虑是否需要像离线那样全局维护状态

1、实时的维度表比离线复杂多了，每次变更下发就意味着要维护8段逻辑

2、要想保证严格准确，比如min这种处理，就需要历史所有的数据流上处理一遍

3、写下来感觉还不如直接用mysql来的实在，1000万的数据mysql也吃的消，逻辑上也简单很多

加:2021-10-08 11:51:37 更:2021-10-08 11:52:20

-2026/4/3 23:49:43-

网站联系: qq:121756557 email:121756557@qq.com IT数码