小小一刀

Flink+iceberg环境搭建以及问题处理

概述

作为实时计算的新贵，Flink受到越来越多公司的青睐，它强大的流批一体的处理能力可以很好地解决流处理和批处理需要构建实时和离线两套处理平台的问题，可以通过一套Flink处理完成，降低成本，Flink结合数据湖的处理方式可以满足我们实时数仓和离线数仓的需求，构建一套数据湖，存储多样化的数据，实现离线查询和实时查询的需求。目前数据湖方面有Hudi和Iceberg，Hudi属于相对成熟的数据湖方案，主要用于增量的数据处理，它跟spark结合比较紧密，Flink结合Hudi的方案目前应用不多。Iceberg属于数据湖的后起之秀，可以实现高性能的分析与可靠的数据管理，目前跟Flink集合方面相对较好。

环境搭建

环境：
hadoop 2.7.7
hive 2.3.6
Flink 1.11.3
iceberg 0.11.1
jdk 1.8
mac os

下载软件

Hadoop ：https://archive.apache.org/dist/hadoop/core/hadoop-2.7.7/
Hive：https://archive.apache.org/dist/hive/hive-2.3.6/
Flink: https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.13.0/flink-1.13.0-bin-scala_2.11.tgz
Iceberg:https://repo.maven.apache.org/maven2/org/apache/iceberg/iceberg-flink-runtime/0.11.1/

查看环境

安装配置

安装软件

解压hadoop压缩包：

tar -xvf hadoop-2.7.7.tar.gz /Users/xxx/work

解压hive压缩包：

tar -xvf apache-hive-2.3.4-bin.tar.gz /Users/xxx/work/hadoop-2.7.7/apache-hive-2.3.4-bin

重命名：

cd /Users/xxx/work/hadoop-2.7.7/
mv apache-hive-2.3.4-bin hive

解压flink压缩包：

tar -xvf flink-1.11.3-bin-scala_2.11.tgz /Users/xxx/work

配置环境变量

打开配置文件(针对mac系统):

cd ~
vim .bash_profile

添加环境变量：

export HADOOP_HOME=/Users/xxx/work/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HIVE_HOME=/Users/xxx/work/hadoop-2.7.7/hive
export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin:$HIVE_HOME/conf

执行source:

source .bash_profile

验证是否配置完成：

xxx@jiacunxu ~ % hadoop version
Hadoop 2.7.7
Subversion Unknown -r c1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3ac
Compiled by stevel on 2018-07-18T22:47Z
Compiled with protoc 2.5.0

xxx@jiacunxu ~ % hive
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/xxx/work/hadoop-2.7.7/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/xxx/work/hadoop-2.7.7/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Logging initialized using configuration in file:/Users/xxx/work/hadoop-2.7.7/hive/conf/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
hive>

如上显示标识，hadoop和hive环境变量配置OK，已经生效

配置Hadoop

进入hadoop目录：

cd /Users/xxx/work/hadoop-2.7.7/etc/hadoop

配置hadoop-env.sh，配置如下一行

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_281.jdk/Contents/Home

配置core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置hdfs-site.xml：

<configuration>
  <configuration>
    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/Users/xxx/hadoop/hdfs/namenode</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/Users/xxx/hadoop/hdfs/datanode</value>
    </property>
  </configuration>
</configuration>

格式化hdfs:

hdfs namenode -format

启动hadoop:

cd /Users/xxx/work/hadoop-2.7.7/sbin
./start-all.sh

查看启动是否正常：

xxx@xxx sbin % jps
2210 NameNode
2294 DataNode
2599 NodeManager
2397 SecondaryNameNode
11085 Launcher
2510 ResourceManager
9774 RunJar

出现NameNode和DataNode表示已经正常启动

配置Hive

创建hdfs目录

hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -mkdir /tmp
hdfs dfs -chmod g+w /user/hive/warehouse
hdfs dfs -chmod g+w /tmp

配置Hive
Hive的元数据是用derby
配置hive-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:derby:;databaseName=/Users/xxx/work/hadoop-2.7.7/hive/bin/metastore_db;create=true</value>
        </property>
        <property>
                <name>hive.metastore.warehouse.dir</name>
                <value>/user/hive/warehouse</value>
                <description>location of default database for the warehouse</description>
        </property>
        <property>
                <name>hive.metastore.uris</name>
                <value/>
                <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>org.apache.derby.jdbc.EmbeddedDriver</value>
        </property>
        <property>
                <name>javax.jdo.PersistenceManagerFactoryClass</name>
                <value>org.datanucleus.api.jdo.JDOPersistenceManagerFactory</value>
        </property>
        <property>
                <name>hive.metastore.schema.verification</name>
                <value>false</value>
        </property>
        <property>
                <name>datanucleus.schema.autoCreateAll</name>
                <value>true</value>
        </property>
</configuration>

配置hive-env.sh

HADOOP_HOME=/Users/joniers/work/bigdata/hadoop-2.7.7

创建Hive metastore

schematool -initSchema -dbType derby --verbose

如果创建失败，请查看hive/scripts/metastore/upgrade/derby目录下hive-schema-2.3.0.derby.sql文件(Hvie 2.3.6我可以直接创建成功，2.3.4会创建失败)。
执行成功，会在bin目录下创建metastore_db目录，如果需要重新执行上面命令，请手动删除metastore_db，否则会报错。
启动hive metaservice:

 hive --service metastore &

检查启动是否成功：

xxx@xxx derby % lsof -i:9083
COMMAND  PID    USER   FD   TYPE             DEVICE SIZE/OFF NODE NAME
java    9774 xxx  580u  IPv4 0xc88e6bed23c31537      0t0  TCP *:9083 (LISTEN)

看到9083正常监听，表示启动正常。

配置Flink

将iceberg-flink-runtime-0.11.1.jar和flink-sql-connector-hive-2.3.6_2.11-1.11.0.jar放入到flink的lib目录下，用来启动Flink sql client，进行iceberg操作，flink结合iceberg会有很多依赖包，也需要放到lib目录下，否则无法正常启动，不一一列举，参照下图：

启动flink

./start-cluster.sh

浏览器输入：http://localhost:8081/，如果能正常打开，证明启动OK。

启动flink sql client
进入目录：

cd /Users/xxx/work/flink-1.11.3/bin

执行命令：

./sql-client.sh embedded \
    -j /Users/xxx/work/flink-1.11.3/lib/iceberg-flink-runtime-0.11.1.jar \
    -j /Users/xxx/work/flink-1.11.3/lib/flink-sql-connector-hive-2.3.6_2.11-1.11.0.jar \
    shell

如图表示启动成功

创建和使用catalogs

创建hive_catalog，执行下面命令：
CREATE CATALOG hive_catalog WITH (
‘type’=‘iceberg’,
‘catalog-type’=‘hive’,
‘uri’=‘thrift://localhost:9083’,
‘clients’=‘5’,
‘property-version’=‘1’,
‘warehouse’=‘hdfs://localhost:9000/user/hive/warehouse’
);
这里针对命令简单面试一下，我们需要配置uri，也就是我们启动hive metaservice的地址，warehouse执行我们创建的hive存储路径

在Flink sql下执行上面命令，你会发现，你失败了，不要灰心，这很正常，iceberg官网有类似的问题描述，不过上面的解决方式不适用于我，一般是版本不匹配或者jdk不匹配导致，报错信息见下：

Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue.
        at org.apache.flink.table.client.SqlClient.main(SqlClient.java:213)
Caused by: java.lang.VerifyError: Stack map does not match the one at exception handler 70
Exception Details:
  Location:
    org/apache/iceberg/hive/HiveCatalog.loadNamespaceMetadata(Lorg/apache/iceberg/catalog/Namespace;)Ljava/util/Map; @70: astore_2
  Reason:
    Type 'org/apache/hadoop/hive/metastore/api/NoSuchObjectException' (current frame, stack[0]) is not assignable to 'org/apache/thrift/TException' (stack map, stack[0])
  Current Frame:
    bci: @27
    flags: {
      }
    locals: {
      'org/apache/iceberg/hive/HiveCatalog', 'org/apache/iceberg/catalog/Namespace' }
    stack: {
      'org/apache/hadoop/hive/metastore/api/NoSuchObjectException' }
  Stackmap Frame:
    bci: @70
    flags: {
      }
    locals: {
      'org/apache/iceberg/hive/HiveCatalog', 'org/apache/iceberg/catalog/Namespace' }
    stack: {
      'org/apache/thrift/TException' }
  Bytecode:
    0x0000000: 2a2b b700 c59a 0016 bb01 2c59 1301 2e04
    0x0000010: bd01 3059 032b 53b7 0133 bf2a b400 3e2b
    0x0000020: ba02 8e00 00b6 00e8 c002 904d 2a2c b702
    0x0000030: 944e b201 2213 0296 2b2d b902 5d01 00b9
    0x0000040: 012a 0400 2db0 4dbb 012c 592c 1301 2e04
    0x0000050: bd01 3059 032b 53b7 0281 bf4d bb01 3559
    0x0000060: bb01 3759 b701 3813 0283 b601 3e2b b601
    0x0000070: 4113 0208 b601 3eb6 0144 2cb7 0147 bf4d
    0x0000080: b800 46b6 014a bb01 3559 bb01 3759 b701
    0x0000090: 3813 0285 b601 3e2b b601 4113 0208 b601
    0x00000a0: 3eb6 0144 2cb7 0147 bf                 
  Exception Handler Table:
    bci [27, 69] => handler: 70
    bci [27, 69] => handler: 70
    bci [27, 69] => handler: 91
    bci [27, 69] => handler: 127
  Stackmap Table:
    same_frame(@27)
    same_locals_1_stack_item_frame(@70,Object[#191])
    same_locals_1_stack_item_frame(@91,Object[#191])
    same_locals_1_stack_item_frame(@127,Object[#193])

        at org.apache.iceberg.flink.CatalogLoader$HiveCatalogLoader.loadCatalog(CatalogLoader.java:112)
        at org.apache.iceberg.flink.FlinkCatalog.<init>(FlinkCatalog.java:111)
        at org.apache.iceberg.flink.FlinkCatalogFactory.createCatalog(FlinkCatalogFactory.java:127)
        at org.apache.iceberg.flink.FlinkCatalogFactory.createCatalog(FlinkCatalogFactory.java:117)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.createCatalog(TableEnvironmentImpl.java:1087)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeOperation(TableEnvironmentImpl.java:1021)
        at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeSql(TableEnvironmentImpl.java:691)
        at org.apache.flink.table.client.gateway.local.LocalExecutor.lambda$executeSql$7(LocalExecutor.java:360)
        at org.apache.flink.table.client.gateway.local.ExecutionContext.wrapClassLoader(ExecutionContext.java:255)
        at org.apache.flink.table.client.gateway.local.LocalExecutor.executeSql(LocalExecutor.java:360)
        at org.apache.flink.table.client.cli.CliClient.callDdl(CliClient.java:642)
        at org.apache.flink.table.client.cli.CliClient.callDdl(CliClient.java:637)
        at org.apache.flink.table.client.cli.CliClient.callCommand(CliClient.java:357)
        at java.util.Optional.ifPresent(Optional.java:159)
        at org.apache.flink.table.client.cli.CliClient.open(CliClient.java:212)
        at org.apache.flink.table.client.SqlClient.openCli(SqlClient.java:142)
        at org.apache.flink.table.client.SqlClient.start(SqlClient.java:114)
        at org.apache.flink.table.client.SqlClient.main(SqlClient.java:201)

解决方式见下：
进入flink bin目录下，打开sql-client.sh文件，在jar包启动的地方加上-noverify ,跳过字节码校验，见下图：

然后再次启动，执行：

Flink SQL> CREATE CATALOG hive_catalog WITH (
>   'type'='iceberg',
>   'catalog-type'='hive',
>   'uri'='thrift://localhost:9083',
>   'clients'='5',
>   'property-version'='1',
>   'warehouse'='hdfs://localhost:9000/user/hive/warehouse'
> );
2021-05-11 10:43:42,344 INFO  org.apache.hadoop.hive.conf.HiveConf                         [] - Found configuration file null
[INFO] Catalog has been created.

Flink SQL>

创建成功，查看一下:

Flink SQL> show catalogs;
default_catalog
hive_catalog

Flink SQL>

hive_catalog已经创建完成

未完待续

结语

以上就是Flink+iceberg环境搭建以及问题处理，我是参照iceberg官方文档指导一步步做的，发现趟坑无所，网上也没有想过的解决方案，后面我会把遇到的坑，整理出来，单独发布，无力吐槽一下官方文档

你可能感兴趣的:(大数据,flink)

简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
Flink中定时器的使用_flink 定时器 ontimerf()方法获取事件字节全栈_vBr flink java 大数据
处理时间——调用Context.timerService().registerProcessingTimeTimer()注册；onTimer()在系统时间戳达到Timer设定的时间戳时触发。事件时间——调用Context.timerService().registerEventTimeTimer()注册；onTimer()在Flink内部水印达到或超过Timer设定的时间戳时触发。Context和
我的名字叫大数据：第1~4章大数据张老师我的名字叫大数据大数据大数据认知大数据启蒙什么是大数据数据库 python
第1章大家好，我叫大数据1.1我的家族传统：从我小小的祖先到壮大的我1.1.1最初的我：原始部落里的计数石头大家好，我是你们人类文明的“老朋友”——大数据。你们知道吗？在我还没有变成你们手机、电脑里飞速跑动的那些数字前，我最初的模样可是一块块“计数石头”。没错，就是普通的小石头！想象一下，很久很久以前，当原始部落里的人们想要知道他的羊群有多少只时，他就会找一块石头代表一只羊。如果他有三只羊，他就会
深度学习基因组学+机器学习单细胞分析，当下最火热研究方向！ qwmb919 人工智能深度学习机器学习 python
深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动
Java 大视界 -- Java 大数据中的数据脱敏技术与合规实践（60）青云交大数据新视界 Java 大视界大数据数据脱敏替换法加密法掩码法 Spark SQL Flink
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据实时数仓的构建与运维实践（55）青云交大数据新视界 Java 大视界大数据实时数仓 Flume Flink HBase ClickHouse Lambda架构
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
Java 大视界 -- Java 大数据中的强化学习算法实践与优化（57）青云交大数据新视界 Java 大视界大数据强化学习算法 Q-learning 经验回放探索利用平衡智能能源管理算法优化
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大数据自动化数据管道构建：工具与最佳实践（47）青云交大数据新视界 Java 大视界大数据自动化数据管道 Sqoop Flume NiFi 数据质量性能优化 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据与区块链的融合：数据可信共享与溯源（45）青云交大数据新视界 Java 大视界大数据区块链数据可信共享数据溯源智能合约区块链存储金融应用 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据高性能计算：利用多线程与并行计算框架（39）青云交大数据新视界 Java 大视界大数据高性能计算多线程并行计算框架 Apache Spark 线程安全数据一致性 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 与量子计算在大数据中的潜在融合：原理与展望（33）青云交大数据新视界 Java 大视界大数据量子计算融合原理技术路径未来展望跨学科人才量子云计算 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
大数据新视界 -- Hive 事务管理的应用与限制（2 - 16 - 8）青云交大数据新视界 #Hive 之道 Hive 事务管理应用场景优化策略数据一致性并发处理大数据爱好者们大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
Caused by: java.io.NotSerializableException: org.apache.kafka.common.metrics.MetricConfig Slient-猿 flink flink kafka
flink自定义数据源的开发过程中遇到这样一个错误。错误原因：在于KafkaConsumer的初始化放在了定义处。解决：应该放在open方法内初始化。DataStreamSourcedataStreamSource=env.addSource(newKafkaSourceFunction());//获取数据kafka消费数据获取DataStreamSourcedata=env.addSource(
Flink的DataSource三部曲之一：直接API 字节全栈_rJF flink 大数据
mvn\archetype:generate\-DarchetypeGroupId=org.apache.flink\-DarchetypeArtifactId=flink-quickstart-java\-DarchetypeVersion=1.9.2现在maven工程已生成，用IDEA导入这个工程，如下图：以maven的类型导入：导入成功的样子：项目创建成功，可以开始写代码实战了；辅助类Spl
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
Flink Connector 写入 Iceberg 流程源码解析_confluent icebergsinkconnector 字节全栈_mMD flink java 大数据
//添加Writer算子，有并行度SingleOutputStreamOperatorwriterStream=appendWriter(distributeStream,flinkRowType,equalityFieldIds);//添加Commit算子，并行度固定为1SingleOutputStreamOperatorcommitterStream=appendCommitter(write
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
Flink CDC的安装配置我的K8409 Flink flink 大数据
FlinkCDC是基于ApacheFlink构建的，用于捕获数据库表中数据的变更情况，包括数据的插入、更新和删除操作，并能将这些变更数据以流的形式实时传输到其他系统中进行处理和分析。传统的数据同步工具往往是定时任务，存在时间延迟。而FlinkCDC能实时捕获数据库的变更数据，一旦有数据变化，立即将其同步到目标系统，让数据在各个系统之间保持高度一致，几乎不存在延迟。CDC含义：变更数据捕获（Chan
Flink整合Hudi及使用我的K8409 Flink flink 服务器 linux
1、jar包上传上传jar包即可完成整合#1、将hudi-flink1.15-bundle-0.15.0.jar包上传到flink的lib目录下/usr/local/soft/flink-1.15.3/lib--如果没有启动集群，直接忽略#2、重启flink的集群yarnapplication-listyarnapplication-killapplication_1706339492248_00
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他