flink kafka实时流计算时,通常会有将多个topic数据接入计算,而这时通常需要区分消息属于哪个topic进行针对处理。spark默认就将topic信息同kafka 消息一起提供出来了,flink 提供的SimpleStringSchema反序列化默认只将消息输出,topic信息没有,JSONKeyValueDeserializationSchema类提供了topic消息,要求消息体为json。 当这些不能满足时,flink也提供了序列化和反序列化接口KeyedDeserializationSchema和KeyedSerializationSchema,可以自定义实现。我们一般都是从kafka消费消息自定义实现KeyedDeserializationSchema接口就可以了。
直接上代码:
public class KafkaDeserializationTopicSchema implements KeyedDeserializationSchema<Tuple3<String,String,String>> {
public KafkaDeserializationTopicSchema(){
}
@Override
public Tuple3 deserialize(byte[] keyByte, byte[] message, String topic, int partition, long offset) throws IOException {
String key = null;
String value = null;
if (keyByte != null) {
key = new String(keyByte, StandardCharsets.UTF_8);
}
if (message != null) {
value = new String(message,StandardCharsets

本文介绍了在Flink进行Kafka实时流计算时,如何处理不同topic的数据。由于Flink的标准反序列化方案可能无法满足特定需求,因此作者提出通过自定义实现KeyedDeserializationSchema接口来获取并处理topic信息。示例代码展示了如何利用该接口获取messageKey、message、topic、partition和offset等信息。
519

被折叠的 条评论
为什么被折叠?



