MySQL到ClickHouse实时同步实战：FlinkCDC + Kafka + 自定义Debezium格式完整配置指南

最新推荐文章于 2026-03-21 01:23:56 发布

原创

最新推荐文章于 2026-03-21 01:23:56 发布 · 846 阅读

MySQL到ClickHouse实时同步实战：FlinkCDC + Kafka + 自定义Debezium格式完整配置指南

最近在帮一个电商团队重构他们的实时数仓，核心需求是把订单、用户行为这些在线业务数据从MySQL实时同步到ClickHouse，用于实时大屏和即席分析。他们之前试过一些开源工具，要么对UPDATE/DELETE操作支持不好，要么就是时区问题搞得人头大，数据总是对不上。折腾了一圈，最后还是决定基于FlinkCDC自己搭一套。这套方案的核心，就是用FlinkCDC抓取MySQL的变更日志，通过Kafka做消息中转，最后用Flink SQL写入ClickHouse。听起来链路不短，但胜在灵活、可控，尤其是能完美处理增删改和那个恼人的8小时时差。

如果你也在为MySQL到ClickHouse的实时同步头疼，特别是当业务表频繁更新、删除，或者对数据一致性、时效性要求极高时，这篇文章就是为你准备的。我会从一个趟过坑的实践者角度，把从环境准备、核心代码实现到生产级调优的完整路径拆解清楚，让你不仅能跑通，更能理解背后的“为什么”。

1. 架构设计与核心组件选型

在动手写代码之前，我们先得把整个数据管道的蓝图看清楚。一个健壮的实时同步架构，绝不仅仅是把数据从一个库搬到另一个库那么简单。它需要应对源端的数据变更捕获、高效的消息传输、复杂的数据转换，以及目标端的精准写入。

为什么是FlinkCDC + Kafka + ClickHouse这个组合？

简单来说，这是一个兼顾了可靠性、灵活性和性能的黄金三角。

FlinkCDC：作为变更数据捕获（CDC）工具，它直接读取MySQL的binlog，能以极低的延迟获取数据的插入、更新、删除事件，并且支持全量+增量的一体化读取，这对初始化历史数据非常友好。
Apache Kafka：扮演着异步解耦和数据缓冲池的角色。FlinkCDC将变更事件写入Kafka，下游的Flink消费任务再从Kafka读取。这样做的好处是，即使ClickHouse临时维护或写入较慢，数据也不会丢失，而是堆积在Kafka中，保证了系统的弹性。
ClickHouse：作为目标端，其列式存储和向量化执行引擎，在聚合查询和分析场景下的性能是毋庸置疑的。但它对高频、小批次的更新删除操作（OLTP特性）并不擅长，这正是我们需要通过Flink在写入前进行精心处理的原因。

整个流程可以概括为以下几步：

捕获：FlinkCDC Source任务持续监听MySQL的binlog。
转换与序列化：将捕获到的INSERT、UPDATE、DELETE事件，通过我们自定义的Debezium反序列化器，处理时区问题，并封装成下游易于处理的JSON格式。
传输：将处理好的数据写入指定的Kafka Topic。
消费与写入：另一个Flink SQL任务从Kafka消费数据，进行必要的过滤和字段转换（比如时间戳处理），最后写入ClickHouse的对应表中。

注意：这里我们选择将“数据转换”和“数据写入”拆分成两个独立的Flink作业。这种分离架构有利于职责清晰和独立扩缩容。CDC作业更关注数据捕获的稳定性和格式统一，而写入作业则可以针对ClickHouse的特性进行专门优化。

2. 项目环境搭建与依赖配置

工欲善其事，必先利其器。一个清晰的项目依赖管理和环境配置，是后续一切顺利的基础。这里我推荐使用Maven进行项目管理，下面是我在项目中实际使用的pom.xml关键依赖配置。

首先，你需要确定Flink的版本。我使用的是 Flink 1.13.5，这是一个相对稳定且社区支持良好的版本。对应的Scala版本是2.12。

<properties>
    <flink.version>1.13.5</flink.version>
    <flink.scala.version>2.12</flink.scala.version>
</properties>

<dependencies>
    <!-- Flink 核心依赖 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-java</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_${flink.scala.version}</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-clients_${flink.scala.version}</artifactId>
        <version>${flink.version}</version>
    </dependency>

    <!-- Flink Table API & SQL (用于写入ClickHouse) -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-planner-blink_${flink.scala.version}</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-api-java-bridge_${flink.scala.version}</artifactId>
        <version>${flink.version}</version>
    </dependency>

    <!-- 连接器：MySQL CDC -->
    <dependency>
        <groupId>com.ververica</groupId>
        <artifactId>flink-connector-mysql-cdc</artifactId>
        <version>2.2.0</version>
    </dependency>

    <!-- 连接器：Kafka -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-kafka_${flink.scala.version}</artifactId>
        <version>${flink.version}</version>
    </dependency>

    <!-- 连接器：ClickHouse (官方暂未提供，常用社区驱动) -->
    <dependency>
        <groupId>com.github

标签