贝拉美

Flink如何连接hive

回顾

在上篇文章中，笔者使用的 CDH 版本为 5.16.2，其中 Hive 版本为 1.1.0（CDH 5.x 系列 Hive 版本都不高于 1.1.0，是不是不可理解），Flink 源代码本身对 Hive 1.1.0 版本兼容性不好，存在不少问题。为了兼容目前版本，笔者基于 CDH 5.16.2 环境，对 Flink 代码进行了修改，重新打包并部署。

其实经过很多开源项目的实战，比如 Apache Atlas，Apache Spark 等，Hive 1.2.x 和 Hive 1.1.x 在大部分情况下，替换一些 Jar 包，是可以解决兼容性的问题。对于笔者的环境来说，可以使用 Hive 1.2.1 版本的一些 Jar 包来代替 Hive 1.1.0 版本的 Jar 包。在本篇文章的开始部分，笔者会解决这个问题，然后再补充上篇文章缺少的实战内容。

剪不断理还乱的问题

根据读者的反馈，笔者将所有的问题总结为三类：

Flink 如何连接 Hive 除了 API 外，有没有类似 spark-sql 命令
识别不到 Hadoop 环境或配置文件找不到
依赖包、类或方法找不到

1. Flink 如何连接 Hive

有的读者不太清楚，如何配置 Flink 连接 Hive 的 Catalog，这里补充一个完整的 conf/sql-client-hive.yaml 示例：

catalogs:

- name: staginghive

type: hive

hive-conf-dir: /etc/hive/conf

hive-version: 1.2.1

execution:

planner: blink

type: batch

time-characteristic: event-time

periodic-watermarks-interval: 200

result-mode: table

max-table-result-rows: 1000000

parallelism: 1

max-parallelism: 128

min-idle-state-retention: 0

max-idle-state-retention: 0

current-catalog: staginghive

current-database: ssb

restart-strategy:

type: fallback

deployment:

response-timeout: 5000

gateway-address: ""

gateway-port: 0

m: yarn-cluster

yn: 2

ys: 5

yjm: 1024

ytm: 2048

sql-client-hive.yaml 配置文件里面包含：

Hive 配置文件 catalogs 中配置了 Hive 的配置文件路径。
Yarn 配置信息 deployment 中配置了 Yarn 的配置信息。
执行引擎信息 execution 配置了 blink planner，并且使用 batch 模式。batch 模式比较稳定，适合传统的批处理作业，而且可以容错，另外中间数据落盘，建议开启压缩功能。除了 batch，Flink 也支持 streaming 模式。

Flink SQL CLI 工具

类似 spark-sql 命令，Flink 提供了 SQL CLI 工具，即 sql-client.sh 脚本。在 Flink 1.10 版本中，Flink SQL CLI 改进了很多功能，笔者后面讲解。

sql-client.sh 使用方式如下：

1	`$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml`

2. 识别不到 Hadoop 环境或配置文件找不到

笔者在上篇文章中提到过，在部署 Flink 的环境上部署 CDH gateway，包括 Hadoop、Hive 客户端，另外还需要配置一些环境变量，如下：

export HADOOP_CONF_DIR=/etc/hadoop/conf

export YARN_CONF_DIR=/etc/hadoop/conf

export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive

export HIVE_CONF_DIR=/etc/hive/conf

3. 依赖包、类或方法找不到

先查看一下 Flink 家目录下的 lib 目录：

$ tree lib

lib

├── flink-connector-hive_2.11-1.10.0.jar

├── flink-dist_2.11-1.10.0.jar

├── flink-hadoop-compatibility_2.11-1.10.0.jar

├── flink-shaded-hadoop-2-2.6.0-cdh5.16.2-9.0.jar

├── flink-table_2.11-1.10.0.jar

├── flink-table-blink_2.11-1.10.0.jar

├── hive-exec-1.1.0-cdh5.16.2.jar

├── hive-metastore-1.1.0-cdh5.16.2.jar

├── libfb303-0.9.3.jar

├── log4j-1.2.17.jar

└── slf4j-log4j12-1.7.15.jar

如果上面前两个问题都解决后，执行如下命令：

1	`$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml`

报错，报错，还是报错：

1	`Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory`

其实在运行 sql-client.sh 脚本前，需要指定 Hadoop 环境的依赖包的路径，建议不要报错一个添加一个，除非有的读者喜欢。这里笔者提示一个方便的方式，即设置 HADOOPCLASSPATH（可以添加到 ~/.bashprofile 中）环境变量：

1	`export` HADOOP_CLASSPATH=`hadoop classpath`

再次执行：

1	`$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml`

很抱歉，继续报错：

Caused by: org.apache.flink.table.client.gateway.SqlExecutionException: Could not create execution context. at org.apache.flink.table.client.gateway.

local.ExecutionContext$Builder.build(ExecutionContext.java:753) at org.apache.flink.table.client.gateway.local

.LocalExecutor.openSession(LocalExecutor.java:228) at org.apache.flink.table.client.SqlClient.start(SqlClient.java:98) at org.apache.flink.table.client.SqlClient.main(SqlClient.java:178) Caused by: org.apache.flink.table.catalog.exceptions.CatalogException: Failed to create Hive Metastore client

这里就是 Hive 1.1.0 版本的 Jar 包与 Flink 出现版本不兼容性的问题了，解决方法是：

下载 apache-hive-1.2.1 版本
替换 Flink lib 目录下的 Hive Jar 包删除掉 hive-exec-1.1.0-cdh5.16.2.jar、 hive-metastore-1.1.0-cdh5.16.2.jar 和 libfb303-0.9.3.jar，然后添加 hive-exec-1.2.1.jar、 hive-metastore-1.2.1.jar 和 libfb303-0.9.2.jar，再次查看 lib 目录：

$ tree lib

lib

├── flink-connector-hive_2.11-1.10.0.jar

├── flink-dist_2.11-1.10.0.jar

├── flink-hadoop-compatibility_2.11-1.10.0.jar

├── flink-shaded-hadoop-2-2.6.0-cdh5.16.2-9.0.jar

├── flink-table_2.11-1.10.0.jar

├── flink-table-blink_2.11-1.10.0.jar

├── hive-exec-1.2.1.jar

├── hive-metastore-1.2.1.jar

├── libfb303-0.9.2.jar

├── log4j-1.2.17.jar

└── slf4j-log4j12-1.7.15.jar

最后再执行：

1	`$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml`

这时，读者就可以看到手握栗子的可爱小松鼠了。

Flink SQL CLI 实践

在 Flink 1.10 版本（目前为 RC1 阶段）中，Flink 社区对 SQL CLI 做了大量的改动，比如支持 View、支持更多的数据类型和 DDL 语句、支持分区读写、支持 INSERT OVERWRITE 等，实现了更多的 TableEnvironment API 的功能，更加方便用户使用。

接下来，笔者详细讲解 Flink SQL CLI。

0. Help

执行下面命令，登录 Flink SQL 客户端：

1 2	`$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml` `Flink SQL>`

执行 HELP，查看 Flink SQL 支持的命令，如下为大部分常用的：

CREATE TABLE
DROP TABLE
CREATE VIEW
DESCRIBE
DROP VIEW
EXPLAIN
INSERT INTO
INSERT OVERWRITE
SELECT
SHOW FUNCTIONS
USE CATALOG
SHOW TABLES
SHOW DATABASES
SOURCE
USE
SHOW CATALOGS

1. Hive 操作

1.1 创建表和导入数据

为了方便读者进行实验，笔者使用 ssb-dbgen 生成测试数据，读者也可以使用测试环境已有的数据来进行实验。
具体如何在 Hive 中一键式创建表并插入数据，可以参考笔者早期的项目 https://github.com/MLikeWater/ssb-kylin

1.2 Hive 表

查看上个步骤中创建的 Hive 表：

0: jdbc:hive2://xx.xxx.xxx.xxx:10000> show tables;

+--------------+--+

| tab_name |

+--------------+--+

| customer |

| dates |

| lineorder |

| p_lineorder |

| part |

| supplier |

+--------------+--+

读者可以对 Hive 进行各种查询，对比后面 Flink SQL 查询的结果。

2. Flink 操作

2.1 通过 HiveCatalog 访问 Hive 数据库

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml

Flink SQL> show catalogs;

default_catalog

staginghive

Flink SQL> use catalog staginghive;

通过 show catalogs 获取配置的所有 catalog。由于笔者在 sql-client-hive.yaml 文件中设置了默认的 catalog，即为 staginghive。如果需要切换到其他 catalog，可以使用 usecatalog xxx。

2.2 查询 Hive 元数据

通过 Flink SQL 查询 Hive 数据库和表：

# 查询数据库

Flink SQL> show databases;

...

ssb

tmp

...

Flink SQL> use ssb;

# 查询表

Flink SQL> show tables;

customer

dates

lineorder

p_lineorder

part

supplier

# 查询表结构

Flink SQL> DESCRIBE customer;

root

|-- c_custkey: INT

|-- c_name: STRING

|-- c_address: STRING

|-- c_city: STRING

|-- c_nation: STRING

|-- c_region: STRING

|-- c_phone: STRING

|-- c_mktsegment: STRING

这里需要注意，Hive 的元数据在 Flink catalog 中都以小写字母使用。

2.3 查询

接下来，在 Flink SQL CLI 中查询一些 SQL 语句，完整 SQL 参考 https://github.com/MLikeWater/ssb-kylin 的 README。

目前 Flink SQL 解析 Hive 视图元数据时，会遇到一些 Bug，比如执行 Q1.1 SQL：

Flink SQL> select sum(v_revenue) as revenue

> from p_lineorder

> left join dates on lo_orderdate = d_datekey

> where d_year = 1993

> and lo_discount between 1 and 3

> and lo_quantity < 25;

[ERROR] Could not execute SQL statement. Reason:

org.apache.calcite.sql.validate.SqlValidatorException: Tabeorder' not found; did you mean 'LINEORDER'?

Flink SQL 找不到视图中的实体表。

p_lineorder 表是 Hive 中的一张视图，创建表的语句如下：

CREATE VIEW P_LINEORDER AS

SELECT LO_ORDERKEY,

LO_LINENUMBER,

LO_CUSTKEY,

LO_PARTKEY,

LO_SUPPKEY,

LO_ORDERDATE,

LO_ORDERPRIOTITY,

LO_SHIPPRIOTITY,

LO_QUANTITY,

LO_EXTENDEDPRICE,

LO_ORDTOTALPRICE,

LO_DISCOUNT,

LO_REVENUE,

LO_SUPPLYCOST,

LO_TAX,

LO_COMMITDATE,

LO_SHIPMODE,

LO_EXTENDEDPRICE*LO_DISCOUNT AS V_REVENUE

FROM ssb.LINEORDER;

但是对于 Hive 中视图的定义，Flink SQL 并没有很好地处理元数据。为了后面 SQL 的顺利执行，这里笔者在 Hive 中删除并重建该视图：

0: jdbc:hive2://xx.xxx.xxx.xxx:10000> create view p_lineorder as

select lo_orderkey,

lo_linenumber,

lo_custkey,

lo_partkey,

lo_suppkey,

lo_orderdate,

lo_orderpriotity,

lo_shippriotity,

lo_quantity,

lo_extendedprice,

lo_ordtotalprice,

lo_discount,

lo_revenue,

lo_supplycost,

lo_tax,

lo_commitdate,

lo_shipmode,

lo_extendedprice*lo_discount as v_revenue

from ssb.lineorder;

然后继续在 Flink SQL CLI 中查询 Q1.1 SQL：

Flink SQL> select sum(v_revenue) as revenue

> from p_lineorder

> left join dates on lo_orderdate = d_datekey

> where d_year = 1993

> and lo_discount between 1 and 3

> and lo_quantity < 25;

revenue

894280292647

继续查询 Q2.1 SQL：

[Bash shell] 纯文本查看 复制代码

Flink SQL> select sum(lo_revenue) as lo_revenue, d_year, p_brand

> from p_lineorder

> left join dates on lo_orderdate = d_datekey

> left join part on lo_partkey = p_partkey

> left join supplier on lo_suppkey = s_suppkey

> where p_category = 'MFGR#12' and s_region = 'AMERICA'

> group by d_year, p_brand

> order by d_year, p_brand;

lo_revenue d_year p_brand

819634128 1998 MFGR#1206

877651232 1998 MFGR#1207

754489428 1998 MFGR#1208

816369488 1998 MFGR#1209

668482306 1998 MFGR#1210

660366608 1998 MFGR#1211

862902570 1998 MFGR#1212

...

最后再查询一个 Q4.3 SQL：

Flink SQL> select d_year, s_city, p_brand, sum(lo_revenue) - sum(lo_supplycost) as profit

> from p_lineorder

> left join dates on lo_orderdate = d_datekey

> left join customer on lo_custkey = c_custkey

> left join supplier on lo_suppkey = s_suppkey

> left join part on lo_partkey = p_partkey

> where c_region = 'AMERICA'and s_nation = 'UNITED STATES'

> and (d_year = 1997 or d_year = 1998)

> and p_category = 'MFGR#14'

> group by d_year, s_city, p_brand

> order by d_year, s_city, p_brand;

d_year s_city p_brand profit

1998 UNITED ST9 MFGR#1440 6665681

如果读者感兴趣的话，可以查询剩余的 SQL，当然也可以和 Spark SQL 进行比较。另外 Flink SQL 也支持 EXPLAIN，查询 SQL 的执行计划。

2.4 创建视图

同样，可以在 Flink SQL CLI 中创建和删除视图，如下：

Flink SQL> create view p_lineorder2 as

> select lo_orderkey,

> lo_linenumber,

> lo_custkey,

> lo_partkey,

> lo_suppkey,

> lo_orderdate,

> lo_orderpriotity,

> lo_shippriotity,

> lo_quantity,

> lo_extendedprice,

> lo_ordtotalprice,

> lo_discount,

> lo_revenue,

> lo_supplycost,

> lo_tax,

> lo_commitdate,

> lo_shipmode,

> lo_extendedprice * lo_discount as v_revenue

> from ssb.lineorder;

[INFO] View has been created.

这里笔者需要特别强调的是，目前 Flink 无法删除 Hive 中的视图：

[Bash shell] 纯文本查看 复制代码

Flink SQL> drop view p_lineorder;

[ERROR] Could not execute SQL statement. Reason:

The given view does not exist in the current CLI session. Only views created with a CREATE VIEW statement can be accessed.

2.5 分区操作

Hive 数据库中创建一张分区表：

CREATE TABLE IF NOT EXISTS flink_partition_test (

id int,

name string

) PARTITIONED BY (day string, type string)

stored as textfile;

接着，通过 Flink SQL 插入和查询数据：

# 插入静态分区的数据

Flink SQL> INSERT INTO flink_partition_test PARTITION (type='Flink', `day`='2020-02-01') SELECT 100001, 'Flink001';

# 查询

Flink SQL> select * from flink_partition_test;

id name day type

100001 Flink001 2020-02-01 Flink

# 插入动态分区

Flink SQL> INSERT INTO flink_partition_test SELECT 100002, 'Spark', '2020-02-02', 'SparkSQL';

# 查询

Flink SQL> select * from flink_partition_test;

id name day type

100002 Spark 2020-02-02 SparkSQL

100001 FlinkSQL 2020-02-01 Flink

# 动态和静态分区结合使用类似，不再演示

# 覆盖插入数据

Flink SQL> INSERT OVERWRITE flink_partition_test PARTITION (type='Flink') SELECT 100002, 'Spark', '2020-02-08', 'SparkSQL-2.4';

id name day type

100002 Spark 2020-02-02 SparkSQL

100001 FlinkSQL 2020-02-01 Flink

字段 day 在 Flink 属于关键字，要特殊处理。

2.6 其他功能

2.6.1 函数

Flink SQL 支持内置的函数和自定义函数。对于内置的函数，可以执行 show functions 进行查看，这一块笔者以后会单独介绍如何创建自定义函数。

2.6.2 设置参数

Flink SQL 支持设置环境参数，可以使用 set 命令查看和设置参数：

Flink SQL> set;

deployment.gateway-address=

deployment.gateway-port=0

deployment.m=yarn-cluster

deployment.response-timeout=5000

deployment.yjm=1024

deployment.yn=2

deployment.ys=5

deployment.ytm=2048

execution.current-catalog=staginghive

execution.current-database=ssb

execution.max-idle-state-retention=0

execution.max-parallelism=128

execution.max-table-result-rows=1000000

execution.min-idle-state-retention=0

execution.parallelism=1

execution.periodic-watermarks-interval=200

execution.planner=blink

execution.restart-strategy.type=fallback

execution.result-mode=table

execution.time-characteristic=event-time

execution.type=batch

Flink SQL> set deployment.yjm = 2048;

总结

在本文中，笔者通过 Flink SQL 比较详细地去操作 Hive 数据库，以及 Flink SQL 提供的一些功能。

当然，目前 Flink SQL 操作 Hive 数据库还是存在一些问题：

目前只支持 TextFile 存储格式，还无法指定其他存储格式 ,只支持 Hive 数据库中 TextFile 存储格式的表，而且 row format serde 是 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe。虽然实现了 RCFile、ORC、Parquet、Sequence 等存储格式，但是无法自动识别 Hive 表的存储格式。如果要使用其他存储格式，需要修改源码，重新编译。不过社区已经对这些存储格式进行了测试，相信不久以后就可以在 Flink SQL 中使用。
OpenCSVSerde 支持不完善：如果读者使用 TextFile 的 row format serde 为 org.apache.hadoop.hive.serde2.OpenCSVSerde 时，无法正确识别字段类型，会把 Hive 表的字段全部映射为 String 类型。
暂时不支持 Bucket 表
暂时不支持 ACID 表
Flink SQL 优化方面功能较少
权限控制方面：这方面和 Spark SQL 类似，目前基于 HDFS ACL 控制，暂时还没有实现 Sentry 或 Ranger 控制权限，不过目前 Cloudera 正在开发基于 Ranger 设置 Spark SQL 和 Hive 共享访问权限的策略，实现行/列级控制以及审计信息。

Flink 社区发展很快，所有这些问题只是暂时的，随着新版本的发布会被逐个解决。

如果 Flink SQL 目前不满足的需求，建议使用 API 方式来解决问题。

你可能感兴趣的:(Apache,Flink)

commons-pool2对象池原理简析月落亦莫离
所谓对象池，即一个放对象的池子。目的是为了复用对象，以减少创建对象的开销，如连接池、线程池等。commons-pool2是apache下的一款对象池开源组件，在学习它的原理前，首先考虑下如果我们自实现对象池，会有哪些问题需要考虑？底层用什么数据结构来做对象池的容器？对象池要有什么属性，支持哪些方法？对象在对象池中的生命周期是什么样的？从对象池获取/归还的步骤？接下来我们带着这些问题去学习commo
Apache与Nginx服务器区别简述 camellia_halo_
Apache与Nginx服务器区别1）nginx和apache的软件底层架构不一样。①：Nginx的并发性要比apache好很多；②：nginx属于轻量级服务器软件，apache属于重量级软件；③：nginx在处理静态页的效率要比apache好很多，apache在处理动态页面上的效率要比nginx高④：apache在安全性要比nginx要好。因此有一种不常用的组合：lnamp。2）运行模式不同的。
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
ARTS-第七周梧上擎天
Algorithm一、用链表和二叉树实现Set集合GitHub地址二、散列表散列表就是使用数组下标随机访问时候复杂度为O（1）的特性，当我们按照键值查找元素时，通过散列函数将key转化为下标然后进行访问，当有大量散列冲突时会退化为O（n）的时间复杂度。解决散列冲突的方法：开放寻址法和链表法ReviewFlink动态表概念原文地址流和表为什么可以相互转换呢？我们都知道传统Mysql的主从复制是通过b
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题 fzip Flink flink java 大数据
在FlinkonYARN集群中提交第二个Job时出现Task的JavaHeapSizeOOM（内存溢出），核心原因是集群资源不足（第一个Job已占用大量资源，第二个Job分配的内存不够）或Job资源配置不合理（单个Job申请资源过多，或内存参数设置与实际需求不匹配）。解决需从“资源排查”“Job配置优化”“集群资源扩容”三个维度入手，具体步骤如下：一、先排查核心原因：确认资源占用与配置是否匹配1.
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
jmeter 添加web_Jmeter 创建一个web测试计划
Jmeter创建一个web测试计划by:授客QQ：10335531221.下载Jmeter下载后解压到你想“安装”的路径下，比如：D:\ProgramFiles(x86)\Jemter\apache-jmeter-2.112.配置环境变量新建JMETER_HOME系统环境变量，值设置为Jmeter所在的路径，D:\ProgramFiles(x86)\Jemter\apache-jmeter-2.1
Spring Boot（六）集成 MyBatis 操作 MySQL 8
一、简介1.1MyBatis介绍MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集。1.2MyBatis发展史MyBatis原本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwarefoundation迁移到了googlecode，并且改名为MyBatis，201
马斯克AI大模型Grok开源了！
2024年3月18日，马斯克的AI创企xAI兑现承诺，正式发布了此前备受期待大模型Grok-1。代码和模型权重已上线GitHub:https://github.com/xai-org/grok-1截止目前，Grok已经在GitHub上获得了35.2k颗Star，还在不断上升中。Grok官方博客介绍：https://x.ai/blog/grok-os遵照Apache2.0协议开放了Grok-1混合专
伽卡他卡电子教室：技术原理、功能解析与教育场景实践
一、术语澄清与技术定位“伽卡他卡”（Gakataka）在计算机科学领域的核心实体为伽卡他卡电子教室软件。需注意其与无关技术的区别：❌与分布式流处理平台ApacheKafka无技术关联；❌与AI模型GauGAN、半导体技术GAA等“G”开头术语无关。核心定位：一款专为教育场景设计的局域网教学管理软件，由伽卡他卡公司开发。二、核心功能与应用场景1.核心模块屏幕广播：实时传输教师端操作画面；远程控制：教
第六十二天服务攻防-框架安全&CVE复现&Spring&Struts&Laravela&ThinkPHP 清歌secure 网络安全全栈学习笔记安全 spring struts
第62天服务攻防-框架安全&CVE复现&Spring&Struts&Laravela&ThinkPHP知识点：中间件及框架列表：IIS,Apache,Nginx,Tomcat,Docker,K8s,Weblogic.JBoos,WebSphere,Jenkins,GlassFish,Jetty,Jira,Struts2,Laravel,Solr,Shiro,Thinkphp,Spring,Flas
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
Flink cdc同步增量数据timestamp字段相差八小时（分析｜解决）不是粘贴复制的！ BUG FIXER 大数据 flink android 大数据
问题我使用flinkcdc同步mysql到mysql遇到了timestamp字段缺少八小时的问题。很少无语，flink,cdc,debezium时区都设置了，没有任何效果！分析问题出现在mysqlbinlog身上！！！因为默认mysql会使用UTC来存储binlog,你可以使用下方的sql验证：mysqlbinlog--base64-output=DECODE-ROWS-v--start-date
如何解决Flink CDC同步时间类型字段8小时时间差的问题，以MySQL为例智海观潮 Flink flink flink cdc 大数据实时数据同步
在使用FlinkCDC进行数据同步时，默认情况下经常会遇到时间类型的字段与实际值相差8个小时的问题。本文以MySQL为例提供解决方案，其他数据源也可以参考这类实现。原文链接：https://mp.weixin.qq.com/s/_f41ES8UquM-kj3Ie8JU_g1.设置server时区比如MySQL服务的时区为UTC时间，可以参考以下code设置时区。MySqlSourcemySqlSo
当OT遇见IT：Apache IoTDB如何用“时序空间一体化“破解工业物联网数据孤岛困局 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在工业4.0的浪潮中，OT（运营技术）与IT（信息技术）的融合成为关键痛点。本文将深入解析ApacheIoTDB如何通过创新性的"时序空间一体化"技术，打通工业数据壁垒，并附可落地的完整解决方案代码。###一、工业数据孤岛：OT与IT的世纪之困####典型工业数据版图```mermaidgraphLROT领域-->A[设备传感器]OT领域-->B[PLC控制系统]OT领域-->C[SCADA系统
Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势 lifallen Paimon 大数据数据库数据结构 java 分布式 apache 数据仓库
弊端：数据重复->优势：Paimon主键表原生去重原方案弊端(Kafka)问题:消息队列（Kafka）是仅支持追加（Append-Only）的日志流。当Flink作业发生故障恢复（Failover）或业务逻辑迭代重跑数据时，同样的数据会被再次写入消息队列，形成重复数据。影响:下游应用（如DWS层、ADS层或直接对接的BI报表）必须自己实现复杂的去重逻辑，这不仅消耗大量计算资源（“资源消耗至少增加一
Docker集群部署 Apache DolphinScheduler 3.x ジ来将可留姓名 docker apache 容器
Docker集群部署ApacheDolphinScheduler3.x。前期准备首先，确保你的机器上已经安装了Docker和DockerCompose。如果还没有安装，请参考以下链接进行安装：Docker安装指南DockerCompose安装指南确认Docker和DockerCompose版本打开终端（Linux/MacOS）或命令提示符（Windows），输入以下命令来检查是否正确安装了Dock
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
Flink 流处理的核心基石【时间语义、水位线、状态、检查点、反压】 csdn_tom_168 大数据 flink 核心时间语义水位线状态检查点反压
Flink流处理的核心基石【时间语义、水位线、状态、检查点、反压】，这些概念相互协作，构建了Flink高吞吐、低延迟、高容错的实时计算能力。以下是这些核心技术的深度解析及其内在联系：一、五大基石的内在联系驱动触发计算持久化保护恢复时间语义水位线状态管理检查点反压二、核心组件深度解析1.时间语义（TimeSemantics）核心作用：定义事件的时间维度//设置事件时间语义（关键配置）env.setS
【实操】信息安全工程师系列-第22关网站安全需求分析与安全保护工程披荆斩棘的GG 安全
【实操】信息安全工程师系列-第22关网站安全需求分析与安全保护工程********永远不要信任用户输入。—安全编程格言一、网站安全基础概念与威胁分（一）核心定义**网站安全目标：**保障机密性（数据不泄露）、完整性（数据不被篡改）、可用性（服务不中断）和可控性（管理可控制）。**技术架构：**基于B/S架构，涉及网络通信、操作系统、数据库、Web服务器（如Apache、IIS）、Web应用及相关协
用Flink实现的一个实时订单对账功能, Flink的双流实时对账
1.为什么业务订单数据不用Mysql之类的强事务性数据库监控反而用Flink的实时?一般这种涉及到订单的数据流都要用mysql监控实现,但是鉴于减少mysql的数据库压力和提高更实时性,可以考虑用Flink实时的数据流做实时的参考2.如何处理乱序数据?使用watermark水位保证第一层数据延迟.PS:这里的水位不能设置太长延迟使用processfuntion更加灵活的处理迟到数据,设置一个定时器
Flink 多流转换（三）CoProcessFunction合流操作案例 Alienware^ #Flink Flink
文章目录下面是CoProcessFunction的一个具体示例：我们可以实现一个实时对账的需求，也就是app的支付操作和第三方的支付操作的一个双流Join。App的支付事件和第三方的支付事件将会互相等待5秒钟，如果等不来对应的支付事件，那么就输出报警信息。程序如下：Gitee源代码如下publicclassBillCheckExample{publicstaticvoidmain(String[]
Flink双流处理：实时对账实现1
Flink双流处理：实时对账实现1去发现同类优质开源项目:https://gitcode.com/资源描述本资源文件详细介绍了Flink双流处理的实时对账实现。内容涵盖了基础概念、双流处理的方法以及实战案例，帮助开发者深入理解Flink在实时对账场景中的应用。内容概述基础概念介绍了Flink的基本概念和架构，为后续的双流处理打下基础。双流处理方法详细讲解了Flink中双流处理的核心方法和技巧，帮助
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
探索数据的桥梁：Apache Olingo——您的OData之旅的最佳伙伴
探索数据的桥梁：ApacheOlingo——您的OData之旅的最佳伙伴olingo-odata4MirrorofApacheOlingo项目地址:https://gitcode.com/gh_mirrors/ol/olingo-odata4项目介绍ApacheOlingo，一个为数据而生的Java库，它围绕着强大的OData规范构建，旨在简化数据访问与共享的过程。作为一个由Apache软件基金会
Apache Olingo OData4 教程凌崧铖
ApacheOlingoOData4教程1.项目介绍ApacheOlingo是一个由Apache软件基金会支持的开源库，用于实现OData（OpenDataProtocol）协议的客户端和服务器端。OData4版本是针对OData规范第4版的实现，提供了一组Java库，帮助开发者轻松创建ODataV4兼容的服务和应用程序。2.项目快速启动Maven配置在你的pom.xml文件中添加ApacheOl
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache