Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时,需要对它们进行序列化和反序列化。为了能够更高效的做到这一点,Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型,并为每种数据类型生成特定的序列化器、反序列化器以及比较器。
此外,Flink 还有一个类型提取系统,可以分析函数的输入和返回类型来自动获取类型信息,进而获得序列化器和反序列化器。但是,在某些情况下,例如使用了 Lambda 函数或者泛型类型,必须显式提供类型信息才能使应用程序正常工作或者提高其性能。
在本文中,我们会讨论 Flink 支持的数据类型,如何为数据类型创建类型信息,以及如何在 Flink 的类型系统无法自动推断函数的返回类型时提供提示,最后简单说明一下显示指定类型信息的两个场景。
1. 数据类型
Flink 支持 Java 和 Scala 所有常见的数据类型,也不需要像 Hadoop 一样去实现一个特定的接口(org.apache.hadoop.io.Writable),能够自动识别数据类型。使用最多的可以分为如下几类,如下图所示:
|