LS_ice

统一的Catalog API(FLink FLIP-30翻译)

文章目录

统一的Catalog API(FLink FLIP-30翻译)
一、动机
- - - FLink与Hive Metastore集成有两个方面：
二、公共接口
三、实现方案（提议）
四、ReadableCatalog接口
五、CatalogDatabase类
六、ObjectPath 类
七、CatalogCommonTable & CatalogTable接口
八、HiveTable类
九、GenericCatalogTable 类
十、CatalogView接口
十一、CatalogFunction类/接口
十二、ReadableWritableCatalog接口
十三、HiveCatalogBase类
十四、HiveCatalog类
十五、GenericHiveMetastoreCatalog类
十六、CatalogManager 类
十七、TableEnvironment 类
十八、目录的YAML配置
十九、TableFactory 接口
二十、HiveTableFactory 类
二十一、自动加载Table Factory
二十二、补充说明
二十三、实施计划
- 任务分解
- 先决条件
二十四、兼容性，弃用和迁移计划
二十五、测试计划

一、动机

随着FLink在流处理中的广泛采用，Flink也显示了其在批处理中的潜力。改进Flink的批处理，尤其是在SQL方面的能力，将使Flink在流处理之外得到更多的应用，并为用户提供流和批处理需求的全套解决方案。

另一方面，Hive已将其重点放在大数据技术及其完整的生态系统上。对于大多数大数据用户而言，Hive不仅是大数据分析和ETL领域SQL引擎，还是一个数据管理平台，可以在Hive平台上，发现，定义和演化数据。也就是说，Hive是Hadoop上大数据事实上的标准。

因此，Flink与Hive生态系统集成势在必行，进一步，FLink可以获得更多的Hive批处理和SQL用户支持。为此，Flink需要与Hive元数据（metadata）和数据（data）集成。

FLink与Hive Metastore集成有两个方面：

1.Hive的meta-object（元数据对象：例如表和视图）可供Flink使用，并且Flink也能够在Hive中创建此类meta-object（元数据对象）

2.使用Hive Metastore作为持久化存储，使Flink的meta-object（元数据对象：表，视图和UDF）持久化。

本文档是Flink和Hive生态系统集成的三个部分之一。不仅涉到FLink与Hive集成，还涉及到重构catalog interface接口，以及TableEnvironment内部catalog及外部catalog规整，长远目标是能够在catalog中，存储批处理和流处理connector连接器信息（不仅仅是Hive，还包括是Kafka， Elasticsearch等连接器）。

二、公共接口

在下一节中可以看到，本文档主要介绍了一组与catalog相关的API，以替换现有的，不完整的和未使用的API。更具体地说，我们提出了一系列接口，用于管理和统一catalog内部的表，视图，函数等，这些接口在要么在外部系统（例如Hive），或者在内部系统（例如Flink内部SQL Client定义YAML文件）。我们还为catalog通常依赖的meta-object（元数据对象）定义了接口，例如表，视图和函数（UDF）。由于Flink允许多个catalog共存于一个用户会话中，因此需要一个管理类CatalogManager，让用户代码更为简洁和方便。简而言之，这些接口主要与SQL和Table API有关。

Catalog可以在客户端程序（例如SQL Client）中配置。因此，我们还支持YAML方式配置Catalog。

三、实现方案（提议）

在当前的Flink代码库中，已经为外部catalog定义了一组接口。但是，这些API尚不稳定，需要适应我们后续的工作计划。

实现方案的层次结构如下：

在图1中，ReadableCatalog、ReadableWritableCatalog和CatalogManager是我们定义的主要接口。其他的只是实现类或接口调用者。

四、ReadableCatalog接口

这个类来自重命名现有的ExternalCatalog 类。删除“External”（外部）关键字的原因是内部和外部之间没有明确的区别，因为外部catalog也可以用于存储Flink的元对象。

我们需要调整现有的API，以容纳其他meta-objects（元数据对象），例如Flink中存在的表和视图，它们在典型的数据库catalog中也很常见。我们还恢复了schema/database概念，而不是非标准的子目录（sub-catalog）术语。

/**
 * All methods in this class can throw a `CatalogException` if the communication
 * fails or the API is not used as intended.
 */
public interface ReadableCatalog {

    /**
     * Open and close methods for establishing or tearing down connections
     * to external systems.
     */
    void open();
    void close();

    /** 
     * Get a table factory instance that can convert catalog tables of this catalog 
     * to sources or sinks. This allows a catalog to provide connectors directly without
     * going through a discovery mechanism. If a table factory isn’t provided, the
     * current discovery mechanism will be used with Java Service Providers.
     */
    Optional getTableFactory();

    /**
     * List and get instances of databases.
     */
    List listDatabases();

    /**
     * Return information about the database (description, last modified date, etc.).
     * Throw a `DatabaseNotFound` exception if database isn’t found.
     */
    CatalogDatabase getDatabase(String databaseName);

    /**
     * List table names under the given database. Throw a `DatabaseNotFound` exception
     * if database isn’t found.
     */
    List listTables(String databaseName);

    /**
     * List view names under the given database. Throw a `DatabaseNotFound` exception
     * if database isn’t found.
     */
    List listViews(String databaseName);

    /**
     * Returns both physical or virtual tables (aka tables or views).
     */
    CatalogCommonTable getTable(ObjectPath tableOrViewName);

    /**
     * List function names under the given database. Throw a `DatabaseNotFound` exception if 
     * database isn’t found.
     */
    List listFunctions(String databaseName);

    /**
     * Returns a function definition.
     */
    CatalogFunction getFunction(ObjectPath functionName);
}

变更包括：

1、添加open（）和close（）。它们被添加到ReadableCatalog 接口，以兼容外部连接（external connections）。他们可能需要一些运行时上下文，但是我们暂时不做介绍。

2、添加了view/ UDF相关的读取接口

3、定义了表（table）和视图（view）之间的关系（见图2）

视图是一种特殊类型的表。更具体地说，视图通过SQL语句，在其他表或视图之上定义出来的虚拟表。

五、CatalogDatabase类

这表示schema/database对象。它目前是subcatalog的模型，来自FLINK-6574。有关更多讨论，请参见“Additional Notes”附加说明部分。

请注意，许多meta-object类（包括CatalogDatabase ，CatalogTable 和CatalogView ），都有一个称为properties的成员变量。它们之所以出现，是因为external catalog可能允许用户指定任何常规属性，例如所有者，creation_time，last_access_time等。

public final class CatalogDatabase {
    private final Map properties;
    public CatalogDatabase(Map properties) {
        this.properties = properties;
    }
    public Map getProperties() {
        return properties;
    }
}

六、ObjectPath 类

这表示catalog中表/视图/函数的完全限定路径。

public final class ObjectPath {

    private final String databaseName;

    private final String objectName;

    public ObjectPath(String databaseName, String objectName) {
        this.databaseName = databaseName;
        this.objectName = objectName;
    }

    public String getDatabaseName() {
        return databaseName;
    }

    public String getObjectName() {
        return objectName;
    }
}

七、CatalogCommonTable & CatalogTable接口

CatalogTable从ExternalCatalogTable修改而来。它定义了Properties Map，在该属Map中，关于表的所有stats和schema，都被编码为键值对（descriptor），或者仅仅是一个POJO类，具有table schema, table stats, 和 table properties。

public interface CatalogCommonTable {
    public TableSchema getSchema();
    public Map getProperties();
}
public interface CatalogTable extends CatalogCommonTable {
    public TableStatistics getTableStatistics();
}

注意：当前，TableSchema仅包含有关表的基本信息，例如字段名称和类型。由于还正在进行SQL DDL讨论，因此将来可能会扩展此类，以表示CREATE TABLE语句中声明的所有内容(schema, computed columns, partitioning, and key constraints约束).。TableSchema与table properties一起，factory 类具有全量的信息，用于创建Flink连接器。

八、HiveTable类

这表示Hive目录中的一个表。

Public class HiveTable implements CatalogTable {
    Public TableSchema getSchema() {
        // get from Hive megastore
    }
    Public TableStats getStats() {
        // get from Hive megastore
    }
    /**
      * Hive table properties (not contain schema or stats)
      */
    Public TableStats getProperties() {
        // get from Hive megastore
    }
}

九、GenericCatalogTable 类

此类表示Flink中当前定义的表，这些表没有外部定义。此类表当前存储在内存中，但可以存储在永久性存储中，以实现跨用户会话的持久化。

public class GenericCatalogTable implements CatalogTable {
    // All table info (schema, stat, and table properties) is encoded as properties
    private Map properties;
    private TableSchema tableSchema;
    prviate TableStats tableStats;
    public TableSchema getSchema() {
        return tableSchema
    }
    Public TableStats getStats() {
        return tableStats;
    }
    public Map getProperties() {
        return properties;
    }
}

十、CatalogView接口

CatalogView是CommonTable的一种特殊类型。View视图由查询语句（query statement, ）定义，查询语句的扩展形式也需要存储，以记住查询上下文（例如当前database）。

public interface CatalogView extends CommonTable {
    // Original text of the view definition.
    String getOriginalQuery();
    // Expanded text of the original view definition
    // This is needed because the context such as current DB is
    // lost after the session, in which view is defined, is gone.
    // Expanded query text takes care of the this, as an example. 
    String getExpandedQuery();
}

十一、CatalogFunction类/接口

此类表示在catalog中定义的函数（UDF）。它现在仅用作占位，因为许多细节需要明确出来。而且CatalogFunction需要涵盖Flink功能和Hive功能。

/**
  * The detailed definition of this class needs to be further sorted
  * out
  */
public class CatalogFunction {
    private Enum from; // source of the function (can only be "CLASS" for now)
    private String clazz; // fully qualified class name of the function
     ...
    private Map properties;
    public CatalogFunction(String from, String clazz, Map properties) {
        this.properties = properties;
    }
    public Map getProperties() {
        return properties;
    }
}

十二、ReadableWritableCatalog接口

该接口来自重命名CrudExternalCatalog 类。我们添加了与view和function相关的方法。

public interface ReadableWritableCatalog extends ReadableCatalog {
    void createDatabase(String databaseName, CatalogDatabase database, boolean ignoreIfExists);
    void alterDatabase(String databaseName, CatalogDatabase database, boolean ignoreIfNotExists);
    void renameDatabase(String databaseName,String newDatabaseName, boolean ignoreIfNotExists);
    void dropDatabase(String databaseName, boolean ignoreIfNotExists);
    void createTable(ObjectPath tableName, CatalogTable table, boolean ignoreIfExists);
    /**
     * dropTable() also covers views.
     * @param tableName
     * @param ignoreIfNotExists
     */
    void dropTable(ObjectPath tableName, boolean ignoreIfNotExists);
    void renameTable(ObjectPath tableName, String newTableName, boolean ignoreIfNotExists);
    void alterTable(ObjectPath tableName, CatalogTable table, boolean ignoreIfNotExists):
    void createView(ObjectPath viewName, CatalogView view, boolean ignoreIfExists);
    void alterView(ObjectPath viewName, CatalogView view, boolean ignoreIfNotExists);
    void createFunction(ObjectPath funcName, CatalogFunction function, boolean ignoreIfExists);
    void renameFunction(ObjectPath funcName, String newFuncName, boolean ignoreIfNotExists);
    void dropFunction(ObjectPath funcName, boolean ignoreIfNotExists);
    void alterFunction(ObjectPath funcName, CatalogFunction function, boolean ignoreIfNotExists);
}

十三、HiveCatalogBase类

这是HiveCatalog和GenericHiveMetastoreCatalog的父类。

abstract class HiveCatalogBase implements ReadableWritableCatalog {
    Private HiveMetastoreClient hmsClient;
    // implementation for reading metadata from or writing metadata to 
    // Hive metastore
    // Any utility methods that are common to both HiveCatalog and
    // FlinkHmsCatalog
}

十四、HiveCatalog类

HiveCatalog类是HiveCatalogBase类的扩展，是存储在Hive Metastore中的Hive meta-objects对应的catalog。

class HiveCatalog extends HiveCatalogBase {
    public TableFactory getTableFactory() {
        return new HiveTableFactory();
    }
    // Implementation of other methods that are not implemented yet.
}

十五、GenericHiveMetastoreCatalog类

这是catalog的实现类，用于保存Flink当前定义的table（view/function）。这个类利用Hive元存储作为持久性存储。

class GenericHiveMetastoreCatalog extends HiveCatalogBase {
    public TableFactory getTableFactory() {
        return null; // Use table factory discovery mechanism
    }
    // Implementation of other methods that are not implemented yet.
}

十六、CatalogManager 类

我们引入CatalogManager类来管理TableEnvironment中所有已注册的ReadableCatalog 实例。它还具有默认catalog的概念，当在meta-object引用中未提供catalog名称时，将选择默认catalog。

public class CatalogManager {
    // The catalog to hold all registered and translated tables
    // We disable caching here to prevent side effects
    private CalciteSchema internalSchema = CalciteSchema.createRootSchema(true, false);
    private SchemaPlus rootSchema = internalSchema.plus();
    // A list of named catalogs.
    private Map catalogs;
    // The name of the default catalog
    private String defaultCatalog = null;
    public CatalogManager(Map catalogs, String defaultCatalog) {
        // make sure that defaultCatalog is in catalogs.keySet().
        this.catalogs = catalogs;
        this.defaultCatalog = defaultCatalog;
    }
    public void registerCatalog(String catalogName, ReadableCatalog catalog) {
        catalogs.put(catalogName, catalog);
    }
    public ReadableCatalog getCatalog(String catalogName) {
        return catalogs.get(catalogName);
    }
    public Set getCatalogs() {
        return this.catalogs.keySet();
    }
    public void setDefaultCatalog(String catName) {
        // validate
        this.defaultCatalog = catqName;
    }
    public ReadableCatalog getDefaultCatalog() {
        return this.catalogs.get(defaultCatalog);
    }
}

除了ReadableCatalogs列表之外，CatalogManger还封装了Calcite的schema框架，这样除了parser需要所有的catalog之外，CatalogManager之外的任何代码都不需要与Calcite的schema交互。(所有的catalog都将被添加到calcite schema中，以便所有的external外部表，可以被calcite在查询和解析期间使用)

十七、TableEnvironment 类

这是table API中的已有的类，该类现在具有对CatalogManager 实例的引用，该引用（CatalogManager实例），将用来添加或者替换 in-memory meta-objects、registered catalogs。

abstract class TableEnvironment(val config: TableConfig) {
…
  private val catalogManager: CatalogManager;
  // This is an existing class with only argument type change
  def registerCatalog(name: String, catalog: ReadableCatalog): Unit
  // Set the default catalog
  def setDefaultCatalog(catName: String);
  // Set the default database
  Def setDefaultDatabase(catName: String, databaseName: String): unit
}

TableEnvironment 类当前具有一些特殊的registerTable 方法，例如TableSource ，TableSink 和非公共类（例如Table RelTable 和Table InlineTable）。这些API将保持不变。但是，为了利用catalog的持久化，可能会更改其实现。详细信息将在本设计系列的第2部分中提供。

十八、目录的YAML配置

以下是Flink中catalog配置的示例。可用的catalog类型有：flink-in-memory, generic-hive-metastore, and hive。每个实现类和相应的工厂类的详细信息将在后续的设计文档中提供。在这里，我们仅关注如何在YAML文件中指定catalog。

catalogs:
-  name: hive1
    catalog:
     type: hive
     is-default: false
     default-db: default
     connection-params:
        hive.metastore.uris: “thrift://host1:10000,thrift://host2:10000”
        hive.metastore.username: “flink”
-  name: flink1
   catalog:
     type: generic-hive-metastore
     is-default: true
     Default-db: default
     connection-params:
        hive.metastore.uris: “thrift://host1:10000,thrift://host2:10000”
        hive.metastore.username: “flink”
       Hive.metastore.db: flink

十九、TableFactory 接口

这是现有接口。

interface TableFactory {
  Map requiredContext();
  List supportedProperties();
}
The following is a utility class providing implementations for conversions between CatallogTable and property map.

public class TableFactoryUtils {
  public static CatalogTable convertToCatalogTable(Map properties) {
    // default implementation
  }
  Public static Map convertToProperties(CatalogTable
    table) {
    // implementation
  }
}
Interface StreamTableSourceFactory extends TableFactory {
    // this one is existing one, which will be deprecated.
    @Deprecated
    StreamTableSource createStreamTableSource(Map properties);
    // This one is new with default implementation.
    Default StreamTableSource createStreamTableSource(CatalogTable table) {
      return createStreamTableSource(
        TableFactoryUtils.convertToProperties(table) );
    }
}
Interface StreamTableSinkFactory extends TableFactory {
    // this one is existing one
    StreamTableSink createStreamSinkSource(Map properties);
    // This one is new.
    Default StreamTableSink createStreamSinkSource(CatalogTable table) {
      return createStreamTableSink(
        TableFactoryUtils.convertToProperties(table) );
    }
}
Interface BatchTableSourceFactory extends TableFactory {
    // this one is existing one
    BatchTableSource createBatchTableSource(Map properties);
    // This one is new.
    Default BatchTableSource createBatchTableSource(CatalogTable table) {
      return createBatchTableSource(
        TableFactoryUtils.convertToProperties(table) );
    }
}
Interface BatchTableSinkFactory extends TableFactory {
    // this one is existing one
    BatchTableSink createBatchTableSink(Map properties);
    // This one is new.
    BatchTableSink createBatchTableSink(CatalogTable table) {
      return createBatchTableSink(
        TableFactoryUtils.convertToProperties(table) );
    }
}

二十、HiveTableFactory 类

HiveTableFactory是TableFactory新的实现类。我们目前仅支持batch模式。

Public class HiveTableFactory implements BatchTableSourceFactory, BatchTableSinkFactory {
    Map requiredContext() {
        // return an empty map to indicate that auto discovery is not needed.
        return new HashMap<>().
    }
    List supportedProperties() {
        // Return an empty list to indicate that no check is needed.
        Return new ArrayList<>();
    }
    BatchTableSource createBatchTableSource(Map properties) {
        // convert properties to catalogtable and call the other version of this method.
        // It’s fine not to support this method.
    }
    BatchTableSource createBatchTableSink(Map properties) {
        // convert properties to catalogtable and call the other version of this method.
        // It’s fine not to support this method.
    }
    BatchTableSource createBatchTableSource(CatalogTable table) {
        Assert (table instanceof HiveTable);
           HiveTable hiveTable = (HiveTable)table;
           // create a table source based on HiveTable
           // This is specific implementation for Hive tables.
    }
    BatchTableSource createBatchTableSink(CatalogTable table) {
        Assert (table instanceof HiveTable);
           HiveTable hiveTable = (HiveTable)table;
        // create a table sink based on HiveTable
        // This is specific implementation for Hive tables.
    }
}

二十一、自动加载Table Factory

如果一个catalog（例如上面的GenericHiveMetastoreCatalog ）从其getTableFactory（）中返回null ，则框架将利用Java Service Provider interfaces（SPI）自动发现真实的table factory。这是Flink中定义的所有Table的现有机制。

HiveTable类是CatalogTable的实现，它表示Hive中的表。

二十二、补充说明

在一个系统具有多个catalog的情况下，必须通过 catalog name, schema/database name, table name来标识表（Table）。因此，表引用需要包括catalog name, schema name, and table name，例如hive1.risk_db.user_events 。如果缺少catalog名称，则假定它表示默认catalog（无论当前默认catalog设置的是哪一个）和默认database。

我们在Flink SQL中引入了默认数据库（default database）概念。这对应于SQL“ use xxx”，其中将schema(database) 设置为当前架构，而没有database/schema前缀的任何表都引用默认架构。由于Flink具有多个catalog，因此语法将为“ use cat1.db1”，其中cat1将是默认目录，而db1将是默认数据库。给定一个表名，目录管理器必须将其解析为全名，以便正确识别该表。

这与FLINK-6574中所做的更改形成鲜明对比，后者试图减少指定目录名称的需要。从理论上讲，这是不可行的，因为需要支持多个catalog。初步测试表明，FLINK-6574未能达到预期的效果。相反，它造成了极大的概念混乱。因此，我们将审查并调整此工作中的更改。

二十三、实施计划

任务分解

1、创建ReadableCatalog ，ReadableWritableCatalog 和相关接口。弃用现有的ExternalCatalog 和CrudExternalCatalog 接口。
2、调整现有InMemoryExternalCatalog 到GenericInMemoryCatalog 类。
3、在TableEnvironment中创建CatalogManager 来管理注册的（可能是多个）catalog，并封装Calcite schema管理。
4、在SQL客户端YAML文件中定义catalog 入口，并处理这些DDL的创建和注册。
5、YAML文件作为table的入口保持向后兼容性。
6、实现HiveCatalog 和HiveTableFactory 。
7、将HiveTableFactory 与现有table factory discovery关联起来。
8、实现GenericHiveMetastoreCatalog 。

先决条件

这里的设计完全基于JAVA，因此实现取决于将当前TableEnvironment 和相关类移植到JAVA 的工作是否完成。[ FLIP-28 ]，[ FLINK-11067 ]

二十四、兼容性，弃用和迁移计划

1、兼容性不应该成为问题，因为要更改的接口不完整，不稳定且未使用。
2、不鼓励在SQL Client YAML文件中定义表的方式，但是为了向后兼容，仅当catalog中不存在表时才创建它们。
3、catalog相关的那些旧接口和类将被简单地删除或修改，而无需弃用过程。
4、无需迁移。

二十五、测试计划

由于更改主要涉及一组大多数未使用的API，因此测试主要是关于：当我们实际实现Hive connector以及Flink中定义的catalog和meta-object（元数据对象），对API有效性进行验证。在此过程中，可能会进一步完善API，以满足这些实现中的特殊要求。

你可能感兴趣的:(flink,flink)

Beam2.61.0版本消费kafka重复问题排查隔壁寝室老吴 kafka linq 分布式
1.问题出现过程在测试环境测试flink的job的任务消费kafka的情况，通过往job任务发送一条消息，然后flinkwebui上消费出现了两条。然后通过重启JobManager和TaskManager后，任务从checkpoint恢复后就会出现重复消费。当任务不从checkpoint恢复的时候，任务不会出现重复消费的情况。由此可见是beam从checkpoint恢复的时候出现了重复消费的问题。
Flink CDC同步Oracle无主键表 Zzz...209 java flink oracle
FlinkCDC同步Oracle无主键表问题背景问题解决问题背景FlinkCDC是一种很强大且实用的实时数据同步工具，官网如下。链接:link但是在实际使用过程中还是会有些不足之处，比如说同步Oracle数据库中无主键以及唯一键的表时，关于目标端的幂等性时无法保证的。问题解决在Oracle数据库中，表中有一个伪列ROWID，而在CDC同步过来的数据中是不包含此列的。修改源码如下，使之携带ROWID
Flink Oracle CDC Connector详解 24k小善 flink java 大数据
1.FlinkOracleCDCConnector核心功能功能模块描述实时数据捕获实时捕捉Oracle数据库中的DML操作（INSERT,UPDATE,DELETE）。Schema变更支持支持部分DDL操作的检测（如表结构变更）。端到端一致性确保数据从Oracle到Flink的传输过程中的完整性和一致性。可扩展性支持高吞吐量和大规模数据处理需求。容错机制具备断点续传能力，确保在中断后能够从上次的位
Apache Flink深度解析：现代流处理引擎暴躁哥大数据技术 apache flink 大数据
好的，我来帮您写一篇关于Flink技术的详细介绍博客：ApacheFlink深度解析：现代流处理引擎一、Flink简介ApacheFlink是一个开源的分布式流处理和批处理统一计算引擎。它提供了数据流上的状态计算、精确一次性语义保证、高吞吐、低延迟等特性，能够运行在所有常见的集群环境中。1.1核心特性统一的流批处理精确一次性语义事件时间处理有状态计算高吞吐和低延迟高可用性配置内存管理二、Flink
Flink SQL Connector Kafka 核心参数全解析与实战指南 Edingbrugh.南空 kafka flink 大数据 flink sql kafka
FlinkSQLConnectorKafka是连接FlinkSQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于ApacheFlink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优的全流程指南，帮助开发者高效构建实时数据管道。一、依赖配置与环境准备1.1Maven依赖引入在FlinkSQL项目中使用Kafka连接器需添加
Flink部署与应用——Flink集群模式黄雪超从0开始学Flink flink 大数据
Flink集群模式在大数据处理领域，ApacheFlink凭借其卓越的流批一体化处理能力，成为众多企业的首选框架。而Flink集群模式的选择与运用，对于充分发挥Flink的性能优势、满足不同业务场景的需求至关重要。接下来，我们将深入探讨Flink的多种集群模式，剖析其特点、适用场景及相互间的差异。集群部署模式对比Flink的集群部署模式可依据两个关键维度进行分类：一是集群的生命周期和资源隔离方式；
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
69、Flink 的 DataStream Connector 之 Kafka 连接器详解猫猫爱吃小鱼粮 Flink-1.19 从0到精通 flink kafka 大数据
1.概述Flink提供了Kafka连接器使用精确一次（Exactly-once）的语义在Kafkatopic中读取和写入数据。目前还没有Flink1.19可用的连接器。2.KafkaSourcea）使用方法KafkaSource提供了构建类来创建KafkaSource的实例。以下代码片段展示了如何构建KafkaSource来消费“input-topic”最早位点的数据，使用消费组“my-group
Flink SourceFunction深度解析：数据输入的起点与奥秘 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理流程中，StreamGraph构建起了作业执行的逻辑框架，而数据的源头则始于SourceFunction。作为Flink数据输入的关键组件，SourceFunction负责从外部数据源读取数据，并将其转换为Flink作业能够处理的格式。深入理解SourceFunction的原理与实现，对于构建高效、稳定的数据处理链路至关重要。接下来，我们将结合有道云笔记内容，对FlinkSo
【Flink实战】 Flink SQL 中处理字符串 `‘NULL‘` 并转换为 `BIGINT` roman_日积跬步-终至千里 #flink 实战 sql flink 数据库
文章目录一、问题描述解决方案解释一、问题描述当我们尝试将字符串'NULL'直接转换为BIGINT时，会遇到NumberFormatException，因为'NULL'不是一个有效的数字字符串。为了避免这种错误，我们需要在转换之前进行检查。解决方案我们可以使用CASE语句来实现条件转换。具体步骤如下：使用CASE语句进行条件判断：检查字符串是否为'NULL'，如果是'NULL'，则返回0；否则，将字
Flink状态和容错-基础篇有数的编程笔记 Flink flink 大数据
1.概念flink的状态和容错绕不开3个概念，statebackends和checkpoint、savepoint。本文重心即搞清楚这3部分内容。容错机制是基于在状态快照的一种恢复方式。但是状态和容错要分开来看。什么是状态，为什么需要状态？流计算和批计算在数据源上最大的区别是，流计算中的数据是无边界的，数据持续不断，而批计算中数据是有边界的，在计算时可以一次性将数据全部拿到。在流计算中无法拿到全部
flink:风控/反欺诈检测系统案例研究1,2,3 菠萝科技 java·未分类 flink flink 风控欺诈
https://flink.apache.org/news/2020/01/15/demo-fraud-detection.htmlhttps://flink.apache.org/news/2020/03/24/demo-fraud-detection-2.htmlhttps://flink.apache.org/news/2020/07/30/demo-fraud-detection-3.ht
实时反欺诈：基于 Spring Boot 与 Flink 构建信用卡风控系统程序员leon 风控大数据系列 spring boot flink 后端风控
在金融科技飞速发展的今天，信用卡欺诈手段日益高明和快速。传统的基于批处理的事后分析模式已难以应对实时性要求极高的欺诈场景。本文将详细介绍如何利用SpringBoot和ApacheFlink这对强大的组合，构建一个高性能、可扩展的实时信用卡反欺诈系统。一、核心思想：从“单点”到“模式”传统的反欺诈规则可能只关注单笔交易的某个特征，比如“金额是否过大”。而现代的欺诈行为往往是一种模式(Pattern)
Flink SQL解析工具类实现：从SQL到数据血缘的完整解析 Edingbrugh.南空 flink 大数据 flink sql 大数据
在大数据处理领域，FlinkSQL作为流批统一的声明式编程接口，已成为数据处理的核心组件。本文将深入解析一个FlinkSQL解析工具类的实现，该工具能够解析FlinkSQL语句，提取表定义、操作关系及数据血缘信息，为数据治理、血缘分析和SQL验证提供基础能力。工具类核心功能概述FlinkParserUtil类实现了FlinkSQL的解析功能，主要包含以下核心能力：SQL过滤与解析：过滤自定义函数声
探秘Flink Connector加载机制：连接外部世界的幕后引擎 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理生态中，SourceFunction负责数据的输入源头，而真正架起Flink与各类外部存储、消息系统桥梁的，则是Connector。从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。而这一切交互的基础，都离不开背后强大且精巧的Connector加载机制。接下来，我们将深
探秘Flink Streaming Source Analysis：一个强大的流处理源码解析工具强妲佳Darlene
探秘FlinkStreamingSourceAnalysis：一个强大的流处理源码解析工具去发现同类优质开源项目:https://gitcode.com/项目简介在大数据实时处理领域，ApacheFlink是一个不可或缺的名字。而flink-streaming-source-analysis项目是由开发者mickey0524创建的一个开源工具，旨在帮助我们更深入地理解和分析Flink流处理的源代码
Flink SQL 解析器与 Calcite 在大数据处理中的应用 JieLun_C flink sql 大数据
FlinkSQL解析器与Calcite在大数据处理中的应用在大数据处理领域中，FlinkSQL解析器与Calcite是两个重要的组件，它们在解析和优化FlinkSQL查询方面发挥着关键作用。本文将介绍FlinkSQL解析器和Calcite的基本概念，并给出一些示例代码，以帮助读者更好地理解它们的用途和工作原理。FlinkSQL解析器FlinkSQL解析器是Flink提供的一个模块，用于将SQL查询
Flink系列-背压(反压) Empty-cup Flink flink 大数据
目录了解背压什么是背压背压产生的原因背压导致的影响定位背压解决背压了解背压什么是背压在流式处理系统中，如果出现下游消费的速度跟不上上游生产数据的速度，就种现象就叫做背压(backpressure，也叫反压)背压产生的原因下游消费的速度跟不上上游生产数据的速度，可能出现的原因如下：节点有性能瓶颈，可能是该节点所在的机器有网络、磁盘等等故障，机器的网络延迟和磁盘不足、频繁GC、数据热点等原因。数据源生
Flink中的反压与背压：原理、检测与应对 Edingbrugh.南空大数据 flink flink 大数据
在大数据流处理领域，Flink以其高效、灵活的特性被广泛应用。然而，在数据的高速流动与处理过程中，数据生产速度和消费速度的不匹配问题时常出现，这就引出了流处理系统中的重要概念——反压（Backpressure）和背压（Backpressure）。尽管名称表述略有差异，但二者本质上描述的是同一类情况，它们的有效处理对保障Flink系统的稳定性和性能起着关键作用。一、反压与背压：概念解析反压（Back
Flink SQL执行流程深度剖析：从SQL语句到分布式执行 Edingbrugh.南空大数据 flink flink sql 分布式
在大数据处理领域，FlinkSQL凭借其强大的处理能力和易用性，成为众多开发者的选择。与其他OLAP引擎类似，FlinkSQL的SQL执行流程大致都需要经过词法解析、语法解析、生成抽象语法树（AST）、校验以及生成逻辑执行计划等步骤。整体流程可笼统地概括为两大阶段：从SQL到Operation的转换，再从Operation到Transformation的转换，最终进入分布式执行阶段。接下来，我们将
互联网大数据求职面试：从Zookeeper到Flink的技术探讨
场景：互联网大数据求职面试在一个阳光明媚的下午，小白来到了知名互联网公司，准备接受他人生中最重要的一次面试。他的面试官是以严肃和专业著称的老黑。第一轮提问：分布式系统与协调老黑：小白，你能解释一下Zookeeper在分布式系统中的作用吗？小白：哦，这个简单，Zookeeper是一个分布式协调服务，主要用来解决分布式系统中数据一致性问题，比如选主、配置管理和命名服务。老黑：不错，那你知道Yarn是如
数据仓库面试题合集⑥ 晴天彩虹雨数据仓库面试解析集锦数据仓库大数据 clickhouse kafka
实时指标体系设计+Flink优化实战：面试高频问题+项目答题模板面试中不仅会问“你做过实时处理吗？”，更会追问：“实时指标体系是怎么搭建的？”、“你们的Flink稳定性怎么保证？”本篇聚焦实时指标体系设计与Flink优化场景，帮你答出架构设计力，也答出调优实战感。①面试核心问题导读“你们实时指标是怎么设计的？”“怎么处理指标的去重、延迟和聚合问题？”“你们的Flink作业怎么做资源优化？”“有没有
flink的多种部署模式 Azoner flink
##部署模式和运行模式###部署模式-本地local-单机无需分布式资源管理-集群-独立集群standalone-需要flink自身的任务管理工具-jobmanager接收和调度任务-taskmanager执行-on其他资源管理工具yarn/k8s-yarn-注意区分flink的和yarn的taskmanager###运行模式-session-先启动一个集群，保持一个会话，在这个会话中通过客户端提
【Flink】Flink自定义流分区器Partitioner、数据倾斜、CustomPartitionerWrapper 九师兄 flink 大数据
1.概述20240118今日在群里看到一个人的流计算任务发生数据倾斜了。然后第一怀疑是上游不均匀，然后发现上游是均匀的。但是后面发现他这个分区器是一个新的shufflebybucket但是我在文章中：【Flink】FlinkUI上下游算子并发之间的数据传递方式Partitioner、流分区器记得好像没有这种类型。然后查看了一下，发现果然没有。
Flink 实现 MySQL CDC 动态同步表结构腾讯云大数据数据库 java python 大数据 mysql
作者：陈少龙，腾讯CSIG高级工程师使用FlinkCDC（ChangeDataCapture)实现数据同步被越来越多的人接受。本文介绍了在数据同步过程中，如何将Schema的变化实时地从MySQL中同步到Flink程序中去。背景MySQL存储的数据量大了之后往往会出现查询性能下降的问题，这时候通过FlinkSQL里的MySQLCDCConnector将数据同步到其他数据存储是常见的一种处理方式。例
什么是Hadoop Yarn ThisIsClark 大数据 hadoop 大数据分布式
HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？YARN（YetAnotherResourceNegotiator）是ApacheHadoop生态系统中的资源管理和作业调度系统，最初在Hadoop2.0中引入，取代了Hadoop1.0的MapReduce1（MRv1）架构。它的核心目标是提高集群资源利用率，并支持多种计算框架（如MapReduce、Spark、Flink等）在同
什么是FlinkSQL中的时态表？以及怎么使用？北洛学Ai linq c#
时态表（TemporalTable）是FlinkSQL中一个非常重要的概念，它允许你查询某个时间点的表快照，特别适合处理历史数据或需要关联历史维表的场景。下面我将详细解释时态表的概念、用法和常见应用场景。1.时态表的概念时态表是一个会随时间变化的表，它记录了数据在不同时间点的状态。在FlinkSQL中，时态表通常用于以下场景：历史数据查询：查询某个时间点的表快照，而不是最新数据。维表关联：在流处理
Flink 系列之三十三- Flink SQL - 中间算子：函数 linmoo1986 flink flink flinksql 函数自定义函数
之前做过数据平台，对于实时数据采集，使用了Flink。现在想想，在数据开发平台中，Flink的身影几乎无处不在，由于之前是边用边学，总体有点混乱，借此空隙，整理一下Flink的内容，算是一个知识积累，同时也分享给大家。注意：由于框架不同版本改造会有些使用的不同，因此本次系列中使用基本框架是Flink-1.19.x，Flink支持多种语言，这里的所有代码都是使用java，JDK版本使用的是19。代码
大数据领域Flink的SQL应用实战大数据洞察大数据与AI人工智能大数据 flink sql ai
大数据领域Flink的SQL应用实战关键词：FlinkSQL、大数据处理、实时计算、流处理、批处理、动态表、TableAPI摘要：本文深入探讨ApacheFlink的SQL生态体系，从核心概念、架构原理到实战应用展开系统解析。通过剖析FlinkSQL的流批统一处理模型、动态表语义、时间窗口机制等关键技术，结合具体代码案例演示数据接入、复杂事件处理、状态管理等核心功能。详细讲解如何利用FlinkSQ
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开