*星星之火*

实践数据湖iceberg 第一课

数据湖iceberg 系列文章目录

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

数据湖实践第一课 flink+iceberg入门

数据湖iceberg 系列文章目录
前言
一、数据湖iceberg实践环境说明
二、启动flink sql客户端
- 1. 启动flink standalone集群
- 2.下载flink iceberg runtime的包，启动flink-sql
- 3.创建基于hadoop的catalog
- 4.写数据，读数据测试（hadoop catalog的限制）
- 5.创建基于hive的catalog
- - 5.1 创建hive的catalog失败
  - 5.1 成功创建catalog
  - 5.3 测试基于hive 的catalog对多客户端的支持
总结

前言

数据胡越来越热门，我也开始探索数据湖在公司落地，把数据湖实践入门、填坑做个记录，也方便以后大家入门

一、数据湖iceberg实践环境说明

1.hadoop版本社区版 2.7.2
2. hive版本 2.3.6
3. flink版本1.11.6 目前flink出来flink1.14.2，但先选择flink1.11看看，原因是官网建议用flink1.11，减少用其他版本造成的坑。

官网说明： Step.1 Downloading the flink 1.11.x binary package from the apache flink download page. We now use scala 2.12 to archive the apache iceberg-flink-runtime jar, so it’s recommended to use flink 1.11 bundled with scala 2.12.

二、启动flink sql客户端

1. 启动flink standalone集群

https://iceberg.apache.org/#flink/#preparation-when-using-flink-sql-client

代码如下（示例）：

# HADOOP_HOME is your hadoop root directory after unpack the binary package.
export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`

# Start the flink standalone cluster
./bin/start-cluster.sh

2.下载flink iceberg runtime的包，启动flink-sql

代码如下（示例）：
下载地址：https://repo.maven.apache.org/maven2/org/apache/iceberg/iceberg-flink-runtime/
iceberg-flink-runtime-xxx.jar
我使用 iceberg-flink-runtime-0.11.1.jar

启动flink sql并带上iceberg

bin/sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar shell

3.创建基于hadoop的catalog

创建脚本，warehouse的路径，它会自动创建
hdfs路径里面 ns是命名空间，但namenode的使用ip:port代替
在flink-sql client 中执行脚本

CREATE CATALOG hadoop_catalog WITH (
  'type'='iceberg',
  'catalog-type'='hadoop',
  'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog',
  'property-version'='1'
);

会自动创建路径 /user/hive/warehouse/iceberg_hadoop_catalog/default，下面是空的
[root@hadoop101 ~]# hadoop fs -ls /user/hive/warehouse/iceberg_hadoop_catalog/default

Flink SQL> show catalogs;
default_catalog
hadoop_catalog

创建数据库

Flink SQL> create database iceberg_db;
[INFO] Database has been created.

Flink SQL> show databases;
default_database
iceberg_db

创建表


Flink SQL> CREATE TABLE `hadoop_catalog`.`default`.`sample` (
>     id BIGINT COMMENT 'unique id',
>     data STRING
> );
[INFO] Table has been created.

查看表, 发现从目前库找，找不到。

Flink SQL> use default_database;

Flink SQL> show tables;
[INFO] Result was empty.

Flink SQL> use iceberg_db;

Flink SQL> show tables;
[INFO] Result was empty.

从hdfs路径去找，发现，生成了表的目录和元信息

4.写数据，读数据测试（hadoop catalog的限制）

hadoop catalog 创建的东西只能在本客户端使用

打开另一个sql客户端，写数据

bin/sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar shell

Flink SQL> INSERT INTO `hadoop_catalog`.`default`.`sample` VALUES (1, 'a');
[INFO] Submitting SQL update statement to the cluster...
[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.TableException: Sink `hadoop_catalog`.`default`.`sample` does not exists


Flink SQL> show databases;
default_database

发现在第一个客户端创建的database和表，都没有，我先认为这个hadoop catalog的限制。

步骤1：把所有sql-client的客户端退出，重新进入sql-client
步骤2：检查hadoop上hadoop_catalog对应的表是否还在，发现表还在

发现1. 之前创建的database没有了，获取hadoop_catalog ,
结论：客户端退出后，catalog在hadoop上的信息还在，但客户端需要重新建立catalog,catalog下的表不用重新建

Flink SQL> show catalogs;
default_catalog

重新创建catalog
Flink SQL> CREATE CATALOG hadoop_catalog WITH (
>   'type'='iceberg',
>   'catalog-type'='hadoop',
>   'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog',
>   'property-version'='1'
> );
[INFO] Catalog has been created.

Flink SQL> use hadoop_catalog;
[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.catalog.exceptions.CatalogException: A database with name [hadoop_catalog] does not exist in the catalog: [default_catalog].

Flink SQL> use catalog hadoop_catalog;

Flink SQL> show tables;
sample
sample_like

Flink SQL> show databases;
default

Flink SQL> show catalogs;
default_catalog
hadoop_catalog

插入两条数据，再查询出来看看

Flink SQL> INSERT INTO `hadoop_catalog`.`default`.`sample` VALUES (1, 'a');
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: a7008acfe1389133c1ae6a5c00e4d611


Flink SQL> INSERT INTO `hadoop_catalog`.`default`.`sample` VALUES (2, 'b');
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: f642dd21e493d630824cb9b30098de3c

Flink SQL> select * from sample;

查询结果：

看看hdfs上的文件

查看data的数据：发现 2个数据文件

查看metadata，发现metadata比较多

之前没完整记录第一执行后的metadata信息，需要重跑，这个流程，记录完整变更的信息

5.创建基于hive的catalog

5.1 创建hive的catalog失败

创建报错，错误原因，如下图, 没有hive的依赖
建hive catalog语法

 CREATE CATALOG hive_catalog WITH (
  'type'='iceberg',
  'catalog-type'='hive',
  'uri'='thrift://hadoop101:9083',
  'clients'='5',
  'property-version'='1',
  'warehouse'='/user/hive/warehouse'
);


Flink SQL>  CREATE CATALOG hive_catalog WITH (
>   'type'='iceberg',
>   'catalog-type'='hive',
>   'uri'='thrift://hadoop101:9083',
>   'clients'='5',
>   'property-version'='1',
>   'warehouse'='/user/hive/warehouse'
> );
> 


Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue.
        at org.apache.flink.table.client.SqlClient.main(SqlClient.java:222)
Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hive/metastore/api/NoSuchObjectException
        at org.apache.iceberg.flink.CatalogLoader$HiveCatalogLoader.loadCatalog(CatalogLoader.java:112)
        at org.apache.iceberg.flink.FlinkCatalog.<init>(FlinkCatalog.java:111)
        at org.apache.iceberg.flink.FlinkCatalogFactory.createCatalog(FlinkCatalogFactory.java:127)
        at org.apache.iceberg.flink.FlinkCatalogFactory.createCatalog(FlinkCatalogFactory.java:117)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.createCatalog(TableEnvironmentImpl.java:1110)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeOperation(TableEnvironmentImpl.java:1043)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeSql(TableEnvironmentImpl.java:693)
        at org.apache.flink.table.client.gateway.local.LocalExecutor.lambda$executeSql$7(LocalExecutor.java:366)
        at org.apache.flink.table.client.gateway.local.ExecutionContext.wrapClassLoader(ExecutionContext.java:254)
        at org.apache.flink.table.client.gateway.local.LocalExecutor.executeSql(LocalExecutor.java:366)
        at org.apache.flink.table.client.cli.CliClient.callDdl(CliClient.java:651)
        at org.apache.flink.table.client.cli.CliClient.callDdl(CliClient.java:646)
        at org.apache.flink.table.client.cli.CliClient.callCommand(CliClient.java:362)
        at java.util.Optional.ifPresent(Optional.java:159)
        at org.apache.flink.table.client.cli.CliClient.open(CliClient.java:210)
        at org.apache.flink.table.client.SqlClient.openCli(SqlClient.java:147)
        at org.apache.flink.table.client.SqlClient.start(SqlClient.java:115)
        at org.apache.flink.table.client.SqlClient.main(SqlClient.java:208)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.metastore.api.NoSuchObjectException
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at org.apache.flink.util.FlinkUserCodeClassLoader.loadClassWithoutExceptionHandling(FlinkUserCodeClassLoader.java:62)
        at org.apache.flink.util.ChildFirstClassLoader.loadClassWithoutExceptionHandling(ChildFirstClassLoader.java:65)
        at org.apache.flink.util.FlinkUserCodeClassLoader.loadClass(FlinkUserCodeClassLoader.java:47)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        ... 18 more

Shutting down the session...
done.
);

解决方法：增加hive的classpath 看看, 官网没看到增加的方法。。。
想到个办法：直接把hive/lib的classpath放到hadoop classpath上，不就ok了？

export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`:/opt/module/hive/lib/*.jar

改完，重跑，没效果

继续努力
解决问题思路，
分析问题：安装报错提示，是包没找到，由这一行发出来的
org.apache.iceberg.flink.CatalogLoader$HiveCatalogLoader.loadCatalog(CatalogLoader.java:112)
把iceberg的源码下载回来对于0.11分支的。发现对于的hive是2.3.7版本，跟我使用的hive2.3.6没大版本变动。
解决方法：排除了hive版本问题，hive的classpath也引进来了，继续看官网
最后解决方法：增加flink-sql-connector-hive-2.3.6_2.11-1.11.0.jar

[root@hadoop101 software]# bin/sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar  -j /opt/software/flink-sql-connector-hive-2.3.6_2.11-1.11.0.jar shell

5.1 成功创建catalog

[root@hadoop101 software]# sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar  -j /opt/software/flink-sql-connector-hive-2.3.6_2.11-1.11.0.jar shell
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/module/flink-1.11.6/lib/log4j-slf4j-impl-2.16.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/module/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
No default environment specified.
Searching for '/opt/module/flink-1.11.6/conf/sql-client-defaults.yaml'...found.
Reading default environment from: file:/opt/module/flink-1.11.6/conf/sql-client-defaults.yaml
No session environment specified.

Command history file path: /root/.flink-sql-history
                                   ▒▓██▓██▒
                               ▓████▒▒█▓▒▓███▓▒
                            ▓███▓░░        ▒▒▒▓██▒  ▒
                          ░██▒   ▒▒▓▓█▓▓▒░      ▒████
                          ██▒         ░▒▓███▒    ▒█▒█▒
                            ░▓█            ███   ▓░▒██
                              ▓█       ▒▒▒▒▒▓██▓░▒░▓▓█
                            █░ █   ▒▒░       ███▓▓█ ▒█▒▒▒
                            ████░   ▒▓█▓      ██▒▒▒ ▓███▒
                         ░▒█▓▓██       ▓█▒    ▓█▒▓██▓ ░█░
                   ▓░▒▓████▒ ██         ▒█    █▓░▒█▒░▒█▒
                  ███▓░██▓  ▓█           █   █▓ ▒▓█▓▓█▒
                ░██▓  ░█░            █  █▒ ▒█████▓▒ ██▓░▒
               ███░ ░ █░          ▓ ░█ █████▒░░    ░█░▓  ▓░
              ██▓█ ▒▒▓▒          ▓███████▓░       ▒█▒ ▒▓ ▓██▓
           ▒██▓ ▓█ █▓█       ░▒█████▓▓▒░         ██▒▒  █ ▒  ▓█▒
           ▓█▓  ▓█ ██▓ ░▓▓▓▓▓▓▓▒              ▒██▓           ░█▒
           ▓█    █ ▓███▓▒░              ░▓▓▓███▓          ░▒░ ▓█
           ██▓    ██▒    ░▒▓▓███▓▓▓▓▓██████▓▒            ▓███  █
          ▓███▒ ███   ░▓▓▒░░   ░▓████▓░                  ░▒▓▒  █▓
          █▓▒▒▓▓██  ░▒▒░░░▒▒▒▒▓██▓░                            █▓
          ██ ▓░▒█   ▓▓▓▓▒░░  ▒█▓       ▒▓▓██▓    ▓▒          ▒▒▓
          ▓█▓ ▓▒█  █▓░  ░▒▓▓██▒            ░▓█▒   ▒▒▒░▒▒▓█████▒
           ██░ ▓█▒█▒  ▒▓▓▒  ▓█                █░      ░░░░   ░█▒
           ▓█   ▒█▓   ░     █░                ▒█              █▓
            █▓   ██         █░                 ▓▓        ▒█▓▓▓▒█░
             █▓ ░▓██░       ▓▒                  ▓█▓▒░░░▒▓█░    ▒█
              ██   ▓█▓░      ▒                    ░▒█▒██▒      ▓▓
               ▓█▒   ▒█▓▒░                         ▒▒ █▒█▓▒▒░░▒██
                ░██▒    ▒▓▓▒                     ▓██▓▒█▒ ░▓▓▓▓▒█▓
                  ░▓██▒                          ▓░  ▒█▓█  ░░▒▒▒
                      ▒▓▓▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒░░▓▓  ▓░▒█░
          
    ______ _ _       _       _____  ____  _         _____ _ _            _  BETA   
   |  ____| (_)     | |     / ____|/ __ \| |       / ____| (_)          | |  
   | |__  | |_ _ __ | | __ | (___ | |  | | |      | |    | |_  ___ _ __ | |_ 
   |  __| | | | '_ \| |/ /  \___ \| |  | | |      | |    | | |/ _ \ '_ \| __|
   | |    | | | | | |   <   ____) | |__| | |____  | |____| | |  __/ | | | |_ 
   |_|    |_|_|_| |_|_|\_\ |_____/ \___\_\______|  \_____|_|_|\___|_| |_|\__|
          
        Welcome! Enter 'HELP;' to list all available commands. 'QUIT;' to exit.


Flink SQL> CREATE CATALOG hive_catalog WITH (
>   'type'='iceberg',
>   'catalog-type'='hive',
>   'uri'='thrift://hadoop101:9083',
>   'clients'='5',
>   'property-version'='1',
>   'hive-conf-dir'='/opt/module/hive/conf'
> );
2022-01-13 10:58:27,528 INFO  org.apache.hadoop.hive.conf.HiveConf                         [] - Found configuration file null
2022-01-13 10:58:27,741 WARN  org.apache.hadoop.hive.conf.HiveConf                         [] - HiveConf of name hive.metastore.event.db.notification.api.auth does not exist
[INFO] Catalog has been created.

5.3 测试基于hive 的catalog对多客户端的支持

在本客户端查看

Flink SQL> show catalogs;
default_catalog
hive_catalog

新开一个客户端，（第一个客户端没有退出）

Flink SQL> show catalogs;
default_catalog

Flink SQL> show databases;
default_database

结论：没有看到hive_catalog, 说明：对hadoop,hive的catalog，不同客户端是不共享的。

总结

按照官网跑： [link](https://iceberg.apache.org/#flink/).

1.了解iceberg 支持3种catalog保存机制
2.目前实践了第一种保存到hadoop上，这种方式，多客户端无法共享catalog，无法上生产
3.需要使用基于hive的catalog

Flink同步数据mysql到doris问题合集土豆沒加常用工具 flink mysql 大数据
Flink同步数据mysql到doris官方同步流程Doris安装下载地址导入镜像启动配置Flink-cdc安装（自制）下载地址导入镜像启动命令启动问题修复Flink报错Couldnotacquiretheminimumrequiredresources.作业报错Mysql8.0PublicKeyRetrievalisnotallowed作业报错Connectto127.0.0.1:8040[/1
Flink架构体系：深入解析Apache Flink的架构与工作原理雨中徜徉的思绪漫溢 flink 架构 apache 大数据
Flink架构体系：深入解析ApacheFlink的架构与工作原理ApacheFlink是一种高性能、分布式、流式处理引擎，被广泛应用于大数据处理和实时分析场景。本文将深入解析Flink的架构体系和工作原理，包括核心组件和数据流处理过程，并提供相应的示例代码。Flink架构概述ApacheFlink的架构基于流式处理模型，它通过将数据流划分为有向无环图（DAG）的形式，将大规模的数据处理任务划分为
Flink的架构体系 GDDGHS_ flink 架构大数据
Flink中的重要角⾊JobManager处理器JobManager处理器也称之为Master，用于协调分布式执行，它们用来调度task，协调检查点，协调失败时恢复等。Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个master处理器，它们其中有一个是leader，而其他的都是standby。TaskManager处理器TaskManager处理器也称之为Worker
Streampark 入门到生产实践大数据学习爱好者 spark开发和机器学习数据仓库数据仓库大数据
Streampark入门到生产实践1.StreamPark初探1.1什么是StreamPark1.2Features1.3架构2.环境安装要求如何插入一段漂亮的代码片3.安装apache-streampark最新版4.使用教程4.1配置Flink_home4.2git拉取项目和构建项目4.3企业微信告警4.4相关参数配置4.5相关参数配置yarn-session1.StreamPark初探1.1什
Flink——部署StreamPark penghaichao 实时-Flink篇 flink 大数据
环境准备提前部署好了Flink1.18，官方要求1.12及以上jdk1.8Mysql5.7，官方要求5.6及以上，也可省略，系统自带h2Step1：通过streampark官网下载安装包Step2：跟着官网的userguide进行操作部署成功后即可通过http://host:10000进行访问，ui界面如下图遇到的问题：原因是mysql数据库默认为localhost主机进行访问，修改权限为'%'后
Flink K8s Application任务的使用老哥哥-老刘 flink
FlinkK8sApplication任务的使用FlinkK8sApplication任务的使用构键k8s集群提供flink运行任务的环境下载flink客户端任务编程任务jar生成过程k8sApplication运行Application模式架构启动命令PodTemplateFlinkK8sApplication任务的使用构键k8s集群在这里，我们需要搭建一个K8S环境用于提供flink任务的运行
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
StreamPark发布：Flink迎来首个Apache版本 MfvShell flink apache 大数据 Flink
近日，流处理计算平台StreamPark重磅发布了其首个Apache版本，为用户带来了更强大的功能和性能优化。这一版本的发布标志着StreamPark与ApacheFlink的融合迈出了重要的一步，为用户提供了更好的流处理体验。ApacheFlink是一个开源的流处理框架，具有强大的扩展性和容错性，被广泛应用于实时数据处理和分析场景。而StreamPark则是基于ApacheFlink构建的流处理
Flink CDC LonelyProgramme flink 数据库大数据
我先说说我的业务需求,我想要实时从mysql数据库中读取配置数据,我以前没接触这个技术之前是定时从数据库中获取数据,但是将数据间隔设置太小就会出现问题,所以达不到纯实时的效果.下面开始介绍一下准备工作:支持的数据库(下面是官方的建议:MySQL|ApacheFlinkCDC)ConnectorDatabaseDrivermysql-cdcMySQL:5.6,5.7,8.0.xRDSMySQL:5.
Doris、ClickHouse 和 Flink 这三个技术典型的应用场景每天瞎忙的农民工大数据 clickhouse flink 大数据 doris
Doris、ClickHouse和Flink这三个技术在不同业务场景下有各自的成功落地方案，主要用于数据分析、实时计算和高性能查询。以下是一些典型的应用场景：1.ApacheDoris落地方案应用场景Doris适用于海量数据的实时查询和分析，尤其适用于报表查询、OLAP分析和BI工具对接。案例某互联网广告公司业务背景：广告业务需要分析用户点击行为，监测广告投放效果，并进行精准推荐。技术方案：数据来
使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris 一天两晒网 doris mysql flink doris flink cdc
背景现有数据库：mysql数据：库表较多，每个企业用户一个分库，每个企业下的表均不同，无法做到聚合,且表可以被用户随意改动，增删改列等，增加表分析：用户自定义分析，通过拖拽定义图卡，要求实时，点击确认即出现相应结果，其中有无法预判的过滤问题：随业务增长，企业用户越来越多，mysql压力越来越大，已经出现一些图卡加载过慢[mysqlsql]同步流程脚本读取mysql中需要同步的企业，在获取需要同步的
Streaming ELT 同步 MySQL 到 StarRocks 慧一居士大数据 mysql 数据库
StreamingELT同步MySQL到StarRocks这篇教程将展示如何基于FlinkCDC快速构建MySQL到StarRocks的StreamingELT作业，包含整库同步、表结构变更同步和分库分表同步的功能。本教程的演示都将在FlinkCDCCLI中进行，无需一行Java/Scala代码，也无需安装IDE。准备阶段准备一台已经安装了Docker的Linux或者MacOS电脑。准备Flink
kafka stream对比flink 后季暖 kafka flink 分布式
KafkaStreams和ApacheFlink虽然都支持实时计算，但它们的定位、架构和适用场景存在显著差异。选择哪一个取决于具体的需求、场景和技术栈。以下是两者的核心区别和适用场景分析：1.定位与架构差异KafkaStreams定位：轻量级库（无需独立集群），深度集成Kafka，适用于构建与Kafka紧密耦合的流处理应用。架构：作为Java库嵌入应用中，依赖Kafka的Broker和Consum
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Flink事件时间案例：电商订单实时分析的奇妙之旅[特殊字符] 狮歌~资深攻城狮 linq c#
Flink事件时间案例：电商订单实时分析的奇妙之旅嘿，小伙伴们！今天咱们通过一个具体的案例来看看Flink在处理事件时间方面的强大威力这个案例就是电商订单的实时分析，就像我们平时在电商平台购物时，平台需要实时了解订单的各种信息一样案例背景假设我们有一个电商平台，每天有大量的用户下单购买各种商品我们希望能够实时统计每个商品的销量，并且按照订单的实际发生时间来进行分析，而不是按照系统处理订单的时间。这
深入理解 Flink 中的 .name() 和 .uid() 方法 Ray.1998 大数据 flink kafka spark hive hadoop
在ApacheFlink中，.name()和.uid()是两个常用的配置方法。虽然它们看起来相似，但它们各自有着不同的功能和用途，理解这两个方法的区别和各自的应用场景，能够帮助开发者更好地管理Flink作业，提升作业的可读性、可维护性和容错性。本文将详细讲解.name()和.uid()的作用、用途以及如何在实际开发中正确使用它们。1.name()方法：为操作命名1.1.作用：.name()方法的作
Flink Checkpoint机制详解 Ray.1998 大数据 flink 大数据开发语言 spark zookeeper kafka hive
在分布式流处理系统中，容错性和一致性是核心要求。ApacheFlink作为流处理的领先框架，提供了一种强大的机制来确保系统的容错性与数据的一致性，这就是Flink的Checkpoint机制。通过定期保存应用程序的状态快照，Flink能够在系统发生故障时迅速恢复到最近的一致状态，并且提供精确一次（exactly-once）的语义保证。本文将详细介绍Flink的Checkpoint机制，包括其触发方式
Spring Boot中整合Flink CDC 数据库变更监听器来实现对MySQL数据库坚定信念，勇往无前 java 数据库 spring boot flink
FlinkCDC（ChangeDataCapture）是Flink的一种数据实时获取的扩展，用于捕获数据库中的数据变化，并且通过实时流式处理机制来操作这些变化的数据，在FlinkCDC中通过Debezium提供的数据库变更监听器来实现对MySQL数据库的监听操作，通过与SpringBoot技术的集成可以更加高效的实现数据实时同步的操作。下面我们就来介绍一下如何在SpringBoot中集成Flink
华为云FusionInsight MRS FlinkSQL 复杂嵌套Json解析最佳实践华为云技术精粹云计算华为云
背景说明随着流计算的发展，挑战不再仅限于数据量和计算量，业务变得越来越复杂，开发者可能是资深的大数据从业者、初学Java的爱好者，或是不懂代码的数据分析者。如何提高开发者的效率，降低流计算的门槛，对推广实时计算非常重要。SQL是数据处理中使用最广泛的语言，它允许用户简明扼要地展示其业务逻辑。Flink作为流批一体的计算引擎，致力于提供一套SQL支持全部应用场景，FlinkSQL的实现也完全遵循AN
图数据库的易用性—GES与Flink的对接华为云技术精粹云计算华为云
数字化时代，业务的实时处理需求越来越迫切，实时预警、实时风控、实时推荐等，Flink作为新一代流批统一的计算引擎，具有独特的天然流式计算特性和更为先进的架构设计的特点，它可以从不同的第三方存储引擎中读取数据，进行处理，然后再写出到另外的存储引擎中。GES拥抱变化，开发了与Flink的对接工具GES-Flink-Connector。GES-Flink-Connector是一款自定义的离线/实时数据同
消息中间件 --- Apache Pulsar johnrui 云计算
使用场景，参考地址：最佳实践｜ApachePulsar在拉卡拉的技术实践_开源_ApachePulsar_InfoQ写作社区场景1：流式队列场景2：消息队列：OpenMessaging协议实现（透明层协议）场景3：流式队列：自定义Kafka0.8-Source（Source开发）场景4：流式队列：Function消息过滤（消息过滤）场景5：流式队列：PulsarFlinkConnector流式计算
Flink-02-flink技术架构及工作原理 TRX1024 Flink
Flink组件栈自下而上，分别针对每一层进行解释说明：Deployment该层主要涉及了Flink的部署模式，Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）。Runtime层Runtime层提供了支持Flink计算的全部核心实现，比如：支持分布式Stream处理、JobGraph到ExecutionGraph的映射、调度等等，为上层API层提供基础服
Flink集群架构流量留 Apache Flink FLINK java 运维数据库
在上一章节我们对flink有了一个基本的了解。从它的应用的场景以及它的一些基本的一些核心的一些概念。从本章节开始，我们对flink从它的一个集群的一个架构以及它的一个部署模式着手，去了解flink如何去部署在不同的这样的一个集群的一些资源管理器上面，以及相应的一些原理的一些解析。本节课开始我们了解一下flink的一个集群的一个基本的架构，了解里面核心的一些组件，比如说dropmanager，tas
maven引包爆红 failed to transfer from http://maven.aliyun.com/nexus/content/groups/public during a previ sui5yue6_ maven java
之前一致可以正常使用，然后突然无法引入新的包无法引包org.apache.flink:flink-streaming-java_2.12:pom:1.13.1failedtotransferfromhttp://maven.aliyun.com/nexus/content/groups/publicduringapreviousattempt.Thisfailurewascachedinthelo
《聊聊Flink：大数据世界的神秘“小能手”》狮歌~资深攻城狮大数据技术大数据
《聊聊Flink：大数据世界的神秘“小能手”》宝子们，咱今天来唠唠一个有点神秘的东西——Flink。你要是刚听到这个名字，可能会觉得像什么魔法咒语似的。其实啊，它可没那么玄乎，但确实挺厉害的。一、Flink是啥？简单来说咱先从最简单的概念说起。Flink就像是一个超级快递员‍✈️在大数据的世界里，每天都有海量的数据像包裹一样到处跑。这些数据有的来自咱们的手机，像你刷短视频的记录、购物的信息；有的来
架构师论文《论湖仓一体架构及其应用》 pccai-vip 架构软考论文
软考论文-系统架构设计师摘要作为某省级商业银行数据中台建设项目技术负责人，我在2020年主导完成了从传统数据仓库向湖仓一体架构的转型。针对日益增长的支付流水、用户行为埋点及信贷审核影像文件等多模态数据处理需求，原有系统存在存储成本激增、实时分析能力不足等问题。新平台需整合12个核心业务系统数据资源，建设支持实时反欺诈、客户画像分析的高性能数据底座。本项目采用Iceberg+Spark架构实现湖仓一
构建多维度用户特征矩阵，开发基于Flink CEP的高风险用户识别模型千叶真尹 linq c#
基于FlinkSQLCEP构建多维度用户特征矩阵与高风险用户识别模型，需结合实时特征计算、动态规则管理和复杂事件检测能力。以下是分步骤实现方案（关键点引用搜索结果中的技术方案）：一、多维度用户特征矩阵构建1.数据源整合实时行为流：通过FlinkSQL连接Kafka，定义用户行为表（如登录、交易事件）：SQLCREATETABLEuser_behavior(user_idSTRING,event_t
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
优化 Flink 消费 Kafka 数据的速度：实战指南 Ray.1998 大数据 flink kafka 大数据
在使用Flink消费Kafka数据时，你可能会遇到消费速率较慢的问题。本文将从Kafka并行消费、批量拉取、Checkpoint频率、ConsumerPoll速率以及Flink任务Slot资源等多个方面，详细解析如何优化Flink消费Kafka的速度。1.增加Kafka并行消费（提高并行度）问题Flink默认的Kafka消费者并行度可能较低，导致消费速度无法充分利用Kafka的吞吐能力。✅解决方案
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =