Flink 的 API

Flink 为开发流式/批处理应用程序提供了不同级别的抽象。

Flink 的 API_第1张图片

  • 最低级别的抽象只是提供有状态和及时的流处理。是的 通过流程嵌入到 DataStream API 中 功能。它允许 用户可以自由地处理来自一个或多个流的事件,并提供一致的容错状态。此外,用户可以注册事件时间和处理时间回调,允许 实现复杂计算的程序。

  • 在实践中,许多应用程序不需要低级 上述抽象,可以针对核心 API 进行编程:DataStream API(有界/无界流)。这些流畅的 API 提供了 用于数据处理的常见构建块,例如各种形式的 用户指定的转换、联接、聚合、窗口、状态等。 这些 API 中处理的数据类型表示为 各自的编程语言。

    低级 Process Function 与 DataStream API 集成, 使得根据需要使用较低级别的抽象成为可能。 DataSet API 在有界数据集上提供了额外的基元, 比如循环/迭代。

  • Table API 是一个以为中心的声明性 DSL,它可以 动态更改表(表示流时)。桌子 API 遵循 (扩展的)关系模型:表附加了一个架构(类似于 关系数据库中的表),API 提供类似的操作, 例如 select、project、join、group-by、aggregate 等。表 API 程序以声明方式定义应执行的逻辑操作,而不是准确指定操作代码的外观。 尽管表 API 可由各种类型的用户定义进行扩展 函数,它的表现力不如核心 API,更简洁 使用(要编写的代码更少)。此外,Table API 程序也经过 在执行之前应用优化规则的优化器。

    可以在表和 DataStream/DataSet 之间无缝转换, 允许程序将 Table API 与 DataStream 和 DataSet API 混合使用。

  • Flink 提供的最高层次的抽象是 SQL。这个抽象 在语义和表现力上都与 Table API 相似,但 将程序表示为 SQL 查询表达式。SQL 抽象与 表 API 和 SQL 查询可以对表 API 中定义的执行。

你可能感兴趣的:(flink,大数据)