[大数据] flink 1.14.3 checkpoint 参数说明及应用于持续升级

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> flink 1.14.3 checkpoint 参数说明及应用于持续升级 -> 正文阅读

[大数据]flink 1.14.3 checkpoint 参数说明及应用于持续升级

flink应用开发完成并且部署上线以后，正常情况下要求是持续运行的，也就是不可以中断执行，比如在按天分组统计业务数据的应用中，将之前收到的数据量累计并记录在缓存中，后续接收到数据后，分组累加到之前的数据上。

不管是程序存在bug需要修复后运行，还是程序需要升级功能后重新运行都是不可避免的，此时就需要借助于checkpoint来进行检查点持久化，以便在下次启动应用的时候，利用检查点恢复数据并且继续从上次中断的位置继续运行。

1. 检查点参数配置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 每 3s 做一次 checkpoint
// 根据业务场景，可以灵活设置该参数
env.enableCheckpointing(3000);

// 设置文件后端
env.setStateBackend(new FsStateBackend("file:///opt/flink/chkpoint"));

// checkpoint 语义设置为 EXACTLY_ONCE，这是默认语义
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

// 两次 checkpoint 的间隔时间至少为 1 s，默认是 0，立即进行下一次 checkpoint
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);

// checkpoint 必须在 60s 内结束，否则被丢弃，默认是 10 分钟
env.getCheckpointConfig().setCheckpointTimeout(60000);

// 同一时间只能允许有一个 checkpoint
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);

// 最多允许 checkpoint 失败 3 次
env.getCheckpointConfig().setTolerableCheckpointFailureNumber(3);

// 当 Flink 任务取消时，保留外部保存的 checkpoint 信息
// 这个是重点，取消和恢复需要此配置
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

//ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION:表示一旦Flink处理程序被cancel后，会保留Checkpoint数据，以便根据实际需要恢复到指定的Checkpoint
//ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION: 表示一旦Flink处理程序被cancel后，会删除Checkpoint数据，只有job执行失败的时候才会保存checkpoint

// 当有较新的 Savepoint 时，作业也会从 Checkpoint 处恢复
env.getCheckpointConfig().setPreferCheckpointForRecovery(true);