flink kafka自定义反序列化

最新推荐文章于 2026-05-02 05:27:35 发布

原创

最新推荐文章于 2026-05-02 05:27:35 发布 · 5.5k 阅读

收录于

当前文章被以下社区和专栏收录：

本文介绍了在Flink进行Kafka实时流计算时，如何处理不同topic的数据。由于Flink的标准反序列化方案可能无法满足特定需求，因此作者提出通过自定义实现KeyedDeserializationSchema接口来获取并处理topic信息。示例代码展示了如何利用该接口获取messageKey、message、topic、partition和offset等信息。

flink kafka实时流计算时，通常会有将多个topic数据接入计算，而这时通常需要区分消息属于哪个topic进行针对处理。spark默认就将topic信息同kafka 消息一起提供出来了，flink 提供的SimpleStringSchema反序列化默认只将消息输出，topic信息没有，JSONKeyValueDeserializationSchema类提供了topic消息，要求消息体为json。当这些不能满足时，flink也提供了序列化和反序列化接口KeyedDeserializationSchema和KeyedSerializationSchema，可以自定义实现。我们一般都是从kafka消费消息自定义实现KeyedDeserializationSchema接口就可以了。

直接上代码:

public class KafkaDeserializationTopicSchema implements KeyedDeserializationSchema<Tuple3<String,String,String>> {


    public KafkaDeserializationTopicSchema(){

    }
    @Override
    public Tuple3 deserialize(byte[] keyByte, byte[] message, String topic, int partition, long offset) throws IOException {
        String key = null;
        String value = null;
        if (keyByte != null) {
            key = new String(keyByte, StandardCharsets.UTF_8);
        }
        if (message != null) {
            value = new String(message,StandardCharsets