Flink一致性实现原理

Apache Flink 的一致性原理核心位于检查点机制(Checkpointing)和两阶段提交协议(Two-Phase Commit) 它贯穿周期性保存分散式快照状态,在故障发生时将任务恢复至一致的状态,实现了从数据源到下游系统的「精确一次」(Exactly-Once)处理语义。

Flink一致性实现的关键原理

全局快照机制(Checkpointing)

  • 原理:基于 Chandy-Lamport 算法,Flink 在数据流中插入特殊的「Barrier」(屏障)来标记检查点。
  • 过程:Barrier从数据源传播到整个作业图(Job Graph)。当侵犯子收到所有输入流的Barrier后,保留当前状态(State)异步写入持久化存储(如HDFS),这就是JobManager确认。
  • 一致性保证:只有当所有攻击子都成功完成快照,该检查点才算完成。如果故障发生,系统会重置到最后一次成功的检查点,并重新处理数据后续。

端到端 Exactly-Once 一致性(两阶段提交)

  • 原理:为了保证 Flink 内部状态一致,而且输出到外部系统(如 Kafka)的结果也一致,Flink 使用了两阶段提交。
  • 步骤:
    预提交(Pre-commit):当Checkpoint Barrier到达Sink算子时,Sink启动事务将数据写入外部系统,但暂不提交。
    提交(Commit):JobManager确认所有算子Checkpoint成功后,通知Sink执行实际的提交操作。
  • 故障恢复:若在提交前出现故障,事务会自动回滚,确保数据不重复、不丢失。
    数据一致性级别

Flink 支持清晰级别的状态一致性:

  • At-most-once:最多一次,故障时无法恢复,数据可能丢失。
  • At-least-once:至少一次,故障恢复时数据可能重复处理,但不会丢失(常规检查点)。
  • Exactly-once:精确一次,故障时恢复状态与未发生故障时完全一致。

总结来说,Flink的一致性靠Checkpoint恢复状态,靠Two-Phase Commit同步状态与外部输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

piepis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值