第一片心意

flink-sql大量使用案例

1. 介绍

本章节主要说明各类型flink sql的先后编写执行顺序，另外简单写一些实际可用的案例。
推荐大家使用 StreamPark 进行 flink sql 任务的开发和上线，官网地址：https://streampark.apache.org/

2. 编写顺序

set
1. 该语句主要是设置本次提交任务环境的一些参数，因此必须写到所有语句的开头，在其他语句执行之前必须先设置参数，之后的语句执行才能使用到设置好的参数。
2. 特殊设置：sql 方言，默认情况下，flink 使用的是自己的方言，但如果想要迁移之前一些hive sql语句，可能想直接使用flink sql引擎直接执行语句，以减少迁移的成本。
  此时就可以将设置sql方言的set语句放到insert语句之前，而不是放到最开头。倘若是直接将设置sql方言的set语句放到最开头，则下面的建表、创建函数之类的语句可能会出错。
create
1. 如果需要用到 hive ，比如读写 hive 表，或者是将创建的虚拟表的信息放到 hive 元数据，就需要有创建 hive catalog 的语句。
2. 创建虚拟表来连接外部系统。
3. 其他
  1. 创建自定义函数。
  2. 创建数据库。
  3. 创建视图
load
1. 如果想要用到 hive 模块，比如使用 hive 的一些函数，则需要加载 hive 模块，加载完 hive 模块之后，平台就自动拥有了 hive 和 core(flink) 这两个模块，默认解析顺序为core->hive。
use
1. 创建了 hive 的 catalog 之后，必须写 use catalog 语句来使用创建的 hive catalog，否则无法连接 hive 元数据。
2. 加载了 hive 模块之后，可以通过 use modules hive, core 语句来调整模块解析顺序。
insert
1. insert语句是真正的 flink sql 任务。

3. 写在前面

以下所有的案例中涉及到的各组件版本如下：

java：1.8
scala：2.12.15
flink：1.15.x
kafka：1.1.1
hadoop：2.8.3
hive：2.3.6
mysql：5.7.30
hbase：1.4.9

4. kafka source

案例中的 kafka 主题 data_gen_source 中的数据来源于 flink sql 连接器 datagen 生成的随机数据，频率为1秒一条，该主题将作为后面其他案例的 source 使用。

-- 生成随机内容的 source 表
create table data_gen (
    id integer comment '订单id',
    product_count integer comment '购买商品数量',
    one_price double comment '单个商品价格'
) with (
    'connector' = 'datagen',
    'rows-per-second' = '1',
    'fields.id.kind' = 'random',
    'fields.id.min' = '1',
    'fields.id.max' = '10',
    'fields.product_count.kind' = 'random',
    'fields.product_count.min' = '1',
    'fields.product_count.max' = '50',
    'fields.one_price.kind' = 'random',
    'fields.one_price.min' = '1.0',
    'fields.one_price.max' = '5000'
)
;

-- kafka sink 表
create table kafka_sink (
    id integer comment '订单id',
    product_count integer comment '购买商品数量',
    one_price double comment '单个商品价格'
) with (
    'connector' = 'kafka',
    'topic' = 'data_gen_source',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

insert into kafka_sink
select id, product_count, one_price
from data_gen
;

kafka 中 data_gen_source 主题的数据如下图所示：

5. kafka -> kafka

kafka 作为 source 和 sink 的案例。

-- 创建连接 kafka 的虚拟表作为 source
CREATE TABLE source_kafka(
    id integer comment '订单id',
    product_count integer comment '购买商品数量',
    one_price double comment '单个商品价格'
) WITH (
    'connector' = 'kafka',
    'topic' = 'data_gen_source',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'properties.group.id' = 'for_source_test',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

-- 创建连接 kafka 的虚拟表作为 sink
create table sink_kafka(
    id integer comment '订单id',
    total_price double comment '总价格'
) with (
    'connector' = 'kafka',
    'topic' = 'for_sink',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

-- 真正要执行的任务，计算每个订单的总价
insert into sink_kafka
select id, product_count * one_price as total_price
from source_kafka
;

运行之后，flink UI 界面如下

sink 端的 kafka 接收到以下数据

可以看到，value 中两个数字使用空格分隔，分别是订单的 id 和订单总价。

6. kafka -> hive

6.1. 写入无分区表

下面的案例演示的是将 kafka 表中的数据，经过处理之后，直接写入 hive 无分区表，具体 hive 表中的数据什么时候可见，具体请查看 insert 语句中对 hive 表使用的 sql 提示。

hive 表信息

CREATE TABLE `test.order_info`(
  `id` int COMMENT '订单id', 
  `product_count` int COMMENT '购买商品数量', 
  `one_price` double COMMENT '单个商品价格')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/order_info'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659250044')
;

flink sql 语句

-- 如果是 flink-1.13.x ，则需要手动设置该参数
set 'table.dynamic-table-options.enabled' = 'true';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;

-- 创建连接 kafka 的虚拟表作为 source，此处使用 temporary ，是为了不让创建的虚拟表元数据保存到 hive，可以让任务重启是不出错。
-- 如果想让虚拟表元数据保存到 hive ，则可以在创建语句中加入 if not exist 语句。
CREATE temporary TABLE source_kafka(
    id integer comment '订单id',
    product_count integer comment '购买商品数量',
    one_price double comment '单个商品价格'
) WITH (
    'connector' = 'kafka',
    'topic' = 'data_gen_source',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'properties.group.id' = 'for_source_test',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

insert into test.order_info
-- 下面的语法是 flink sql 提示，用于在语句中使用到表时手动设置一些临时的参数
/*+
OPTIONS(
    -- 设置写入的文件滚动时间间隔
    'sink.rolling-policy.rollover-interval' = '10 s',
    -- 设置检查文件是否需要滚动的时间间隔
    'sink.rolling-policy.check-interval' = '1 s',
    -- sink 并行度
    'sink.parallelism' = '1'
)
 */
select id, product_count, one_price
from source_kafka
;

任务运行之后，就可以看到如下的 fink ui 界面了

本案例使用 streaming 方式运行， checkpoint 时间为 10 s，文件滚动时间为 10 s，在配置的时间过后，就可以看到 hive 中的数据了

从 hdfs 上查看 hive 表对应文件的数据，如下图所示

可以看到，1 分钟滚动生成了 6 个文件，最新文件为 .part 开头的文件，在 hdfs 中，以 . 开头的文件，是不可见的，说明这个文件是由于我关闭了 flink sql 任务，然后文件无法滚动造成的。

有关读写 hive 的一些配置和读写 hive 表时其数据的可见性，可以看考读写hive页面。

6.2. 写入分区表

hive 表信息如下

CREATE TABLE `test.order_info_have_partition`(
  `product_count` int COMMENT '购买商品数量', 
  `one_price` double COMMENT '单个商品价格')
PARTITIONED BY ( 
  `minute` string COMMENT '订单时间，分钟级别', 
  `order_id` int COMMENT '订单id')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/order_info_have_partition'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659254559')
;

flink sql 语句

-- 如果是 flink-1.13.x ，则需要手动设置该参数
set 'table.dynamic-table-options.enabled' = 'true';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;

-- 创建连接 kafka 的虚拟表作为 source，此处使用 temporary ，是为了不让创建的虚拟表元数据保存到 hive，可以让任务重启是不出错。
-- 如果想让虚拟表元数据保存到 hive ，则可以在创建语句中加入 if not exist 语句。
CREATE temporary TABLE source_kafka(
    event_time TIMESTAMP(3) METADATA FROM 'timestamp',
    id integer comment '订单id',
    product_count integer comment '购买商品数量',
    one_price double comment '单个商品价格'
) WITH (
    'connector' = 'kafka',
    'topic' = 'data_gen_source',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'properties.group.id' = 'for_source_test',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

insert into test.order_info_have_partition
-- 下面的语法是 flink sql 提示，用于在语句中使用到表时手动设置一些临时的参数
/*+
OPTIONS(
    -- 设置分区提交触发器为分区时间
    'sink.partition-commit.trigger' = 'partition-time',
--     'partition.time-extractor.timestamp-pattern' = '$year-$month-$day $hour:$minute',
    -- 设置时间提取器的时间格式，要和分区字段值的格式保持一直
    'partition.time-extractor.timestamp-formatter' = 'yyyy-MM-dd_HH:mm',
    -- 设置分区提交延迟时间，这儿设置 1 分钟，是因为分区时间为 1 分钟间隔
    'sink.partition-commit.delay' = '1 m',
    -- 设置水印时区
    'sink.partition-commit.watermark-time-zone' = 'GMT+08:00',
    -- 设置分区提交策略，这儿是将分区提交到元数据存储，并且在分区目录下生成 success 文件
    'sink.partition-commit.policy.kind' = 'metastore,success-file',
    -- sink 并行度
    'sink.parallelism' = '1'
)
 */
select
    product_count,
    one_price,
    -- 不要让分区值中带有空格，分区值最后会变成目录名，有空格的话，可能会有一些未知问题
    date_format(event_time, 'yyyy-MM-dd_HH:mm') as `minute`,
    id as order_id
from source_kafka
;

flink sql 任务运行的 UI 界面如下

1 分钟之后查看 hive 表中数据，如下

查看 hive 表对应 hdfs 上的文件，可以看到

从上图可以看到，具体的分区目录下生成了 _SUCCESS 文件，表示该分区提交成功。

7. hive -> hive

source，source_table表信息和数据

CREATE TABLE `test.source_table`(
  `col1` string, 
  `col2` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/source_table'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659260162')
;

source_table 表中的数据如下

sink，sink_table表信息如下

CREATE TABLE `test.sink_table`(
  `col1` string, 
  `col2` array<string> comment '保存 collect_list 函数的结果', 
  `col3` array<string> comment '保存 collect_set 函数的结果')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/sink_table'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659260374')
;

sink_table 表数据如下

下面将演示两种 sql 方言，将 source_table 表数据，写入 sink_table 表，并且呈现上面图示的结果

7.1. 使用 flink 方言

set 'table.local-time-zone' = 'GMT+08:00';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;

-- 加载 hive module 之后，flink 就会将 hive 模块放到模块解析顺序的最后。
-- 之后flink 引擎会自动使用 hive 模块来解析 flink 模块解析不了的函数，如果想改变模块解析顺序，则可以使用 use modules hive, core; 语句来改变模块解析顺序。
load module hive;

insert overwrite test.sink_table
select col1, collect_list(col2) as col2, collect_set(col2) as col3
from test.source_table
group by col1
;

7.2. 使用hive方言

set 'table.local-time-zone' = 'GMT+08:00';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;

-- 加载 hive module 之后，flink 就会将 hive 模块放到模块解析顺序的最后。
-- 之后flink 引擎会自动使用 hive 模块来解析 flink 模块解析不了的函数，如果想改变模块解析顺序，则可以使用 use modules hive, core; 语句来改变模块解析顺序。
load module hive;

-- 切记，设置方言之后，之后所有的语句将使用你手动设置的方言进行解析运行
-- 这儿设置了使用 hive 方言，因此下面的 insert 语句就可以直接使用 hive sql 方言了，也就是说，下面可以直接运行 hive sql 语句。
set 'table.sql-dialect' = 'hive';

-- insert overwrite `table_name` 是 flink sql 方言语法
-- insert overwrite table `table_name` 是 hive sql 方言语法
insert overwrite table test.sink_table
select col1, collect_list(col2) as col2, collect_set(col2) as col3
from test.source_table
group by col1
;

8. temporal join(时态连接)

该案例中，将 upsert kafka 主题 order_info 中的数据作为维表数据，然后去关联订单流水表，最后输出完整的订单流水信息数据到 kafka。

订单流水表读取的是 kafka data_gen_source 主题中的数据，数据内容如下

订单信息维表读取的是 kafka order_info 主题中的数据，数据内容如下

实际执行的 flink sql 为

set 'table.local-time-zone' = 'GMT+08:00';
-- 如果 source kafka 主题中有些分区没有数据，就会导致水印无法向下游传播，此时需要手动设置空闲时间
set 'table.exec.source.idle-timeout' = '1 s';

-- 订单流水
CREATE temporary TABLE order_flow(
    id int comment '订单id',
    product_count int comment '购买商品数量',
    one_price double comment '单个商品价格',
    -- 定义订单时间为数据写入 kafka 的时间
    order_time TIMESTAMP_LTZ(3) METADATA FROM 'timestamp' VIRTUAL,
    WATERMARK FOR order_time AS order_time
) WITH (
    'connector' = 'kafka',
    'topic' = 'data_gen_source',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'properties.group.id' = 'for_source_test',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

-- 订单信息
create table order_info (
    id int PRIMARY KEY NOT ENFORCED comment '订单id',
    user_name string comment '订单所属用户',
    order_source string comment '订单所属来源',
    update_time TIMESTAMP_LTZ(3) METADATA FROM 'timestamp' VIRTUAL,
    WATERMARK FOR update_time AS update_time
) with (
    'connector' = 'upsert-kafka',
    'topic' = 'order_info',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'key.format' = 'csv',
    'value.format' = 'csv',
    'value.csv.field-delimiter' = ' '
)
;

-- 创建连接 kafka 的虚拟表作为 sink
create table sink_kafka(
    id int PRIMARY KEY NOT ENFORCED comment '订单id',
    user_name string comment '订单所属用户',
    order_source string comment '订单所属来源',
    product_count int comment '购买商品数量',
    one_price double comment '单个商品价格',
    total_price double comment '总价格'
) with (
    'connector' = 'upsert-kafka',
    'topic' = 'for_sink',
    'properties.bootstrap.servers' = 'node01:9092,node02:9092,node03:9092',
    'key.format' = 'csv',
    'value.format' = 'csv',
    'value.csv.field-delimiter' = ' '
)
;

-- 真正要执行的任务
insert into sink_kafka
select
    order_flow.id,
    order_info.user_name,
    order_info.order_source,
    order_flow.product_count,
    order_flow.one_price,
    order_flow.product_count * order_flow.one_price as total_price
from order_flow
left join order_info FOR SYSTEM_TIME AS OF order_flow.order_time
on order_flow.id = order_info.id
;

flink sql 任务运行的 flink UI 界面如下

查看结果写入的 kafka for_sink 主题的数据为

此时新增数据到 kafka 维表主题 order_info 中，新增的数据如下

再查看结果写入的 kafka for_sink 主题的数据为

注意

经过测试发现，当将 upsert kafka 作为 source 时，主题中的数据必须有 key，否则会抛出无法反序列化数据的错误，具体如下

[INFO] [2022-07-31 21:18:22][org.apache.flink.runtime.executiongraph.ExecutionGraph]Source: order_info[5] (2/8) (f8b093cf4f7159f9511058eb4b100b2e) switched from RUNNING to FAILED on bbc9c6a6-0a76-4efe-a7ea-0c00a19ab400 @ 127.0.0.1 (dataPort=-1).
java.io.IOException: Failed to deserialize consumer record due to
    at org.apache.flink.connector.kafka.source.reader.KafkaRecordEmitter.emitRecord(KafkaRecordEmitter.java:56) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.KafkaRecordEmitter.emitRecord(KafkaRecordEmitter.java:33) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.base.source.reader.SourceReaderBase.pollNext(SourceReaderBase.java:143) ~[flink-connector-base-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.api.operators.SourceOperator.emitNext(SourceOperator.java:385) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.io.StreamTaskSourceInput.emitNext(StreamTaskSourceInput.java:68) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.io.StreamOneInputProcessor.processInput(StreamOneInputProcessor.java:65) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.tasks.StreamTask.processInput(StreamTask.java:519) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor.runMailboxLoop(MailboxProcessor.java:203) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.tasks.StreamTask.runMailboxLoop(StreamTask.java:804) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:753) ~[flink-streaming-java-1.15.1.jar:1.15.1]
    at org.apache.flink.runtime.taskmanager.Task.runWithSystemExitMonitoring(Task.java:948) ~[flink-runtime-1.15.1.jar:1.15.1]
    at org.apache.flink.runtime.taskmanager.Task.restoreAndInvoke(Task.java:927) ~[flink-runtime-1.15.1.jar:1.15.1]
    at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:741) ~[flink-runtime-1.15.1.jar:1.15.1]
    at org.apache.flink.runtime.taskmanager.Task.run(Task.java:563) ~[flink-runtime-1.15.1.jar:1.15.1]
    at java.lang.Thread.run(Thread.java:748) ~[?:1.8.0_311]
Caused by: java.io.IOException: Failed to deserialize consumer record ConsumerRecord(topic = order_info, partition = 0, leaderEpoch = 0, offset = 7, CreateTime = 1659273502239, serialized key size = 0, serialized value size = 18, headers = RecordHeaders(headers = [], isReadOnly = false), key = [B@2add8ff2, value = [B@2a633689).
    at org.apache.flink.connector.kafka.source.reader.deserializer.KafkaDeserializationSchemaWrapper.deserialize(KafkaDeserializationSchemaWrapper.java:57) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.KafkaRecordEmitter.emitRecord(KafkaRecordEmitter.java:53) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    ... 14 more
Caused by: java.io.IOException: Failed to deserialize CSV row ''.
    at org.apache.flink.formats.csv.CsvRowDataDeserializationSchema.deserialize(CsvRowDataDeserializationSchema.java:162) ~[flink-csv-1.15.1.jar:1.15.1]
    at org.apache.flink.formats.csv.CsvRowDataDeserializationSchema.deserialize(CsvRowDataDeserializationSchema.java:47) ~[flink-csv-1.15.1.jar:1.15.1]
    at org.apache.flink.api.common.serialization.DeserializationSchema.deserialize(DeserializationSchema.java:82) ~[flink-core-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.connectors.kafka.table.DynamicKafkaDeserializationSchema.deserialize(DynamicKafkaDeserializationSchema.java:119) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.deserializer.KafkaDeserializationSchemaWrapper.deserialize(KafkaDeserializationSchemaWrapper.java:54) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.KafkaRecordEmitter.emitRecord(KafkaRecordEmitter.java:53) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    ... 14 more
Caused by: org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.exc.MismatchedInputException: No content to map due to end-of-input
 at [Source: UNKNOWN; line: -1, column: -1]
    at org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.exc.MismatchedInputException.from(MismatchedInputException.java:59) ~[flink-shaded-jackson-2.12.4-15.0.jar:2.12.4-15.0]
    at org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.DeserializationContext.reportInputMismatch(DeserializationContext.java:1601) ~[flink-shaded-jackson-2.12.4-15.0.jar:2.12.4-15.0]
    at org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectReader._initForReading(ObjectReader.java:358) ~[flink-shaded-jackson-2.12.4-15.0.jar:2.12.4-15.0]
    at org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectReader._bindAndClose(ObjectReader.java:2023) ~[flink-shaded-jackson-2.12.4-15.0.jar:2.12.4-15.0]
    at org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectReader.readValue(ObjectReader.java:1528) ~[flink-shaded-jackson-2.12.4-15.0.jar:2.12.4-15.0]
    at org.apache.flink.formats.csv.CsvRowDataDeserializationSchema.deserialize(CsvRowDataDeserializationSchema.java:155) ~[flink-csv-1.15.1.jar:1.15.1]
    at org.apache.flink.formats.csv.CsvRowDataDeserializationSchema.deserialize(CsvRowDataDeserializationSchema.java:47) ~[flink-csv-1.15.1.jar:1.15.1]
    at org.apache.flink.api.common.serialization.DeserializationSchema.deserialize(DeserializationSchema.java:82) ~[flink-core-1.15.1.jar:1.15.1]
    at org.apache.flink.streaming.connectors.kafka.table.DynamicKafkaDeserializationSchema.deserialize(DynamicKafkaDeserializationSchema.java:119) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.deserializer.KafkaDeserializationSchemaWrapper.deserialize(KafkaDeserializationSchemaWrapper.java:54) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    at org.apache.flink.connector.kafka.source.reader.KafkaRecordEmitter.emitRecord(KafkaRecordEmitter.java:53) ~[flink-connector-kafka-1.15.1.jar:1.15.1]
    ... 14 more

9. 一些特殊语法

9.1. 列转行

也就是将数组展开，一行变多行，使用到 cross join unnest() 语句。

读取 hive 表数据，然后写入 hive 表。

source，source_table表信息如下

CREATE TABLE `test.source_table`(
  `col1` string, 
  `col2` array<string> COMMENT '数组类型的字段')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/source_table'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659261419')
;

source_table表数据如下

sink_table表信息如下

CREATE TABLE `test.sink_table`(
  `col1` string, 
  `col2` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoopCluster/user/hive/warehouse/test.db/sink_table'
TBLPROPERTIES (
  'transient_lastDdlTime'='1659261915')
;

sink_table表数据如下

下面将使用两种方言演示如何将数组中的数据展开

9.1.1. 使用flink方言

set 'table.local-time-zone' = 'GMT+08:00';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;


insert overwrite test.sink_table
select col1, a.col
from test.source_table
cross join unnest(col2) as a (col)
;

9.1.2. 使用hive方言

set 'table.local-time-zone' = 'GMT+08:00';

-- 在需要读取hive或者是写入hive表时，必须创建hive catalog。
-- 创建catalog
create catalog hive with (
    'type' = 'hive',
    'hive-conf-dir' = 'hdfs:///hadoop-conf'
)
;

use catalog hive;

load module hive;

set 'table.sql-dialect' = 'hive';

insert overwrite table test.sink_table
select col1, a.col
from test.source_table
lateral view explode(col2) a as col
;

10. kafka join JDBC

10.1. 常规 join

create table source (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价'
) with (
    'connector' = 'kafka',
    'topic' = 'source1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

create table dim_goods (
    goods_id integer comment '商品id',
    goods_name string comment '商品名称'
) with (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://hadoop01:3306/test',
    'username' = 'test',
    'password' = 'test',
    'table-name' = 'dim_goods'
)
;

create table sink (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价'
) with (
    'connector' = 'kafka',
    'topic' = 'sink1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

insert into sink
select id, a.goods_id, b.goods_name, a.goods_count, a.price_total
from source as a
join dim_goods as b
on a.goods_id = b.goods_id
;

直接使用常规 join ，发现任务运行之后，JDBC 对应的 source，会直接运行一次，加载完 mysql 表中的所有数据，然后 task 完成。

Flink UI 界面：

可以看到，MySql 表中的所有数据只会被完全加载一次，然后缓存到 Flink 内存中，之后对 MySql 表中的数据的更改，并不会影响运行中 flink 任务的结果。

通过不断往 kafka 中发送数据，可以证明这一点：

发送维表中有对应 id 的数据，维表中找到多条，则会产生多条结果。
发送维表中没有对应 id 的数据，则不会发送结果，和 join 的预期结果一致。

10.2. lookup join

set pipeline.operator-chaining = false;

create table source (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

create table dim_goods (
    goods_id integer comment '商品id',
    goods_name string comment '商品名称'
) with (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://hadoop01:3306/test',
    'username' = 'test',
    'password' = 'test',
    'table-name' = 'dim_goods'
)
;

create table sink (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价'
) with (
    'connector' = 'kafka',
    'topic' = 'sink1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

insert into sink
select id, a.goods_id, b.goods_name, a.goods_count, a.price_total
from source as a
join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
on a.goods_id = b.goods_id
;

flink 任务运行的 Flink UI 界面：

可以看到，在没有接收到 kafka 数据时，并没有去 mysql 维表中加载维表数据，而且任务执行图中也显示出现在执行的是 LookupJoin。

往 kafka 中发送数据，会出现以下情况：

kafka 中的数据可以在在维表中找到对应 id 的数据，也就是可以关联上，则会进行一次处理，而且所有执行节点处理的数据量均为 1.
kafka 中的数据在维表中找不到对应 id 的数据，也就是说关联不上，则只有 soruce 执行节点接收到了数据，后面的 LookupJoin 执行节点没有接收到数据，也就是说没有找到对应 id 的数据，后续也不进行处理，如下图：

注：lookup join 方式并不会缓存维表中的数据。

不够 JDBC 给 lookup join 提供了 lookup cache 功能，可以通过下面这两个 JCBC 参数开启：

'lookup.cache.max-rows' = '10000',
'lookup.cache.ttl' = '1 min'

上面参数二选一即可，也可同时设置，缓存的数据满足其中一个条件，就会过期，然后被清除。

注：如果在关联维表时还有一些对维表数据的过滤，则可以直接将条件写到 on 条件之后，使用 and 关键字连接即可。不推荐创建为表的视图，在视图里面提前对数据进行过滤，这会涉及到 primary key 相关的问题。示例如下：

from source as a
join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
on a.goods_id = b.goods_id and dt in (2)

其中，dt 字段是维表中的字段。

11. kafka 开窗

11.1. 单流开窗统计

由于该案例涉及到了维表关联，所以先创建了一个视图，用来完成维表关联，之后在视图的基础上进行开窗累加统计。

-- set pipeline.operator-chaining = false;

create table source (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

create table dim_goods (
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    dt integer comment '分区'
) with (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://hadoop01:3306/test',
    'username' = 'test',
    'password' = 'test',
    'table-name' = 'dim_goods',
    'lookup.cache.max-rows' = '10000',
    'lookup.cache.ttl' = '1 min'
)
;


create table sink (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    window_start timestamp(3) comment '窗口开始时间',
    window_end timestamp(3) comment '窗口结束时间',
    primary key(id, goods_id, goods_name, window_start, window_end) not enforced
) with (
    'connector' = 'upsert-kafka',
    'topic' = 'sink1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'key.format' = 'csv',
    'value.format' = 'csv',
    'value.csv.field-delimiter' = ' '
)
;

create view middle as
select id, a.goods_id, b.goods_name, a.goods_count, a.price_total, a.proctime
from source as a
join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
on a.goods_id = b.goods_id and dt in (1)
;

insert into sink
select id, goods_id, goods_name, sum(goods_count) as goods_count, sum(price_total) as price_total, window_start, window_end
from
    table(
        cumulate(table middle, descriptor(proctime), interval '1' minutes, interval '1' day)
        )
group by id, goods_id, goods_name, window_start, window_end
;

注：该案例使用的渐进式窗口，在 group by 进行累加时，必须将窗口开始时间和结束时间字段都添加上，否则渐进式窗口会在每次接收到实时数据后做结果输出，而且会输出后续所有窗口的结果。如果最终结果不需要窗口时间字段，可以在外面再包一层，只挑选自己需要的字段。

如果聚合条件只写了 window_end ，而没有写 window_start，则结果输出为

可以看到，后续所有涉及到的窗口结果，都被输出了，而且是每接收到 kafka 一条数据，就会触发计算并输出结果。

如果聚合条件中把窗口开始时间和结束时间都写上的话，则会输出理想的结果，如下图所示

每次到达窗口结束时间时，不管上游 kafka 是否有新数据，会触发对应窗口计算，并且输出对应窗口的结果。

11.2. 多流合并开窗统计

11.2.1. 将多源合并之后开窗

这种方式的结果是正确的。

-- set pipeline.operator-chaining = false;

create table source1 (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;
create table source2 (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source2',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

create table dim_goods (
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    dt integer comment '分区'
) with (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://hadoop01:3306/test',
    'username' = 'test',
    'password' = 'test',
    'table-name' = 'dim_goods',
    'lookup.cache.max-rows' = '10000',
    'lookup.cache.ttl' = '1 min'
)
;


create table sink (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    window_start timestamp(3) comment '窗口开始时间',
    window_end timestamp(3) comment '窗口结束时间',
    primary key(id, goods_id, goods_name, window_start, window_end) not enforced
) with (
    'connector' = 'upsert-kafka',
    'topic' = 'sink1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'key.format' = 'csv',
    'value.format' = 'csv',
    'value.csv.field-delimiter' = ' '
)
;

create view middle as
    select id, a.goods_id, b.goods_name, a.goods_count, a.price_total, a.proctime
    from source1 as a
    join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
    on a.goods_id = b.goods_id and dt in (1)
union all
    select id, a.goods_id, b.goods_name, a.goods_count, a.price_total, a.proctime
    from source2 as a
    join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
    on a.goods_id = b.goods_id and dt in (1)
;


insert into sink
select id, goods_id, goods_name, sum(goods_count) as goods_count, sum(price_total) as price_total, window_start, window_end
from
    table(
        cumulate(table middle, descriptor(proctime), interval '1' minutes, interval '1' day)
        )
group by id, goods_id, goods_name, window_start, window_end
;

上面的 sql 中，首先将两个 source 流中的数据进行各自维表关联打宽，然后合并到一起，合并必须使用 union all，否则 porctime 时间属性特性会丢失，下面的开窗会无法使用。

之后对合并之后的视图进行开窗统计，经过测试，发现是理想的结果。上面 flink sql 任务对应 flink UI 界面为：

不管上游 kafka 是否会继续发送数据，每次到达小窗口触发时间，都会输出正确的计算结果，结果如下：

从结果中可以看到，每次小窗口触发计算之后，都会输出对应窗口的结果，而且是正确的结果。

11.2.2. 分别开窗之后再合并开窗-错误结果

这种方式的结果是错误的。

-- set pipeline.operator-chaining = false;

create table source1 (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;
create table source2 (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    proctime as proctime()
) with (
    'connector' = 'kafka',
    'topic' = 'source2',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'scan.startup.mode' = 'latest-offset',
    'properties.group.id' = 'test',
    'format' = 'csv',
    'csv.field-delimiter' = ' '
)
;

create table dim_goods (
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    dt integer comment '分区'
) with (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://hadoop01:3306/test',
    'username' = 'test',
    'password' = 'test',
    'table-name' = 'dim_goods',
    'lookup.cache.max-rows' = '10000',
    'lookup.cache.ttl' = '1 min'
)
;


create table sink (
    id integer comment '订单id',
    goods_id integer comment '商品id',
    goods_name string comment '商品名称',
    goods_count integer comment '购买商品数量',
    price_total double comment '总价',
    window_start timestamp(3) comment '窗口开始时间',
    window_end timestamp(3) comment '窗口结束时间',
    primary key(id, goods_id, goods_name, window_start, window_end) not enforced
) with (
    'connector' = 'upsert-kafka',
    'topic' = 'sink1',
    'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
    'key.format' = 'csv',
    'value.format' = 'csv',
    'value.csv.field-delimiter' = ' '
)
;

create view middle1 as
    select id, a.goods_id, b.goods_name, a.goods_count, a.price_total, a.proctime
    from source1 as a
    join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
    on a.goods_id = b.goods_id
;
create view middle2 as
    select id, a.goods_id, b.goods_name, a.goods_count, a.price_total, a.proctime
    from source2 as a
    join dim_goods FOR SYSTEM_TIME AS OF a.proctime as b
    on a.goods_id = b.goods_id
;

create view result1 as
select id, goods_id, goods_name, sum(goods_count) as goods_count, sum(price_total) as price_total, max(proctime) as proctime, window_start, window_end
from
    table(
        cumulate(table middle1, descriptor(proctime), interval '1' minutes, interval '1' day)
        )
group by id, goods_id, goods_name, window_start, window_end
;
create view result2 as
select id, goods_id, goods_name, sum(goods_count) as goods_count, sum(price_total) as price_total, max(proctime) as proctime, window_start, window_end
from
    table(
        cumulate(table middle2, descriptor(proctime), interval '1' minutes, interval '1' day)
        )
group by id, goods_id, goods_name, window_start, window_end
;
-- 需要重新注册处理时间，上面的处理时间属性字段已经不可用了
create view result_union as
select id, goods_id, goods_name, goods_count, price_total, proctime() as proctime
from result1
union all
select id, goods_id, goods_name, goods_count, price_total, proctime() as proctime
from result2
;

insert into sink
select id, goods_id, goods_name, sum(goods_count) as goods_count, sum(price_total) as price_total, window_start, window_end
from
    table(
        cumulate(table result_union, descriptor(proctime), interval '1' minutes, interval '1' day)
        )
group by id, goods_id, goods_name, window_start, window_end
;

由于第一次开窗使用了源中的 proctime 这个处理时间属性字段，所以下面再次开窗时，这个字段的时间属性已经丢失了，所以在 union all 两个源开窗合并的结果时，需要重新注册处理时间属性字段，之后使用该字段进行二次开窗统计。但是由于第一次开窗之后的结果对应的处理时间已经超过了对应的窗口结束时间，因此新注册的处理时间已经超过了上一个窗口的结束时间，下面再次开窗统计时，数据将会再下一次窗口内统计，所以最终的结果时间，已经是下一个窗口的时间了，时间明显滞后一个窗口时间。

另一个错误是：我上面使用的是渐进式窗口，因此第一个窗口会在每个小窗口结束时发送最新计算结果，而且不管上游的 kafka 有没有新数据，都会发送结果。如此一次，第二次的开窗，会不断的接收到第一次开窗的结果数据，所以第二次开窗中，除了第一个窗口，后面的窗口计算结果都错了，他们一直在累加。

我只往两个 kafka 源中发送了一次数据，之后再也没发送过数据，但是每次小窗口被触发之后，都会进行累加，具体结果如下：

Flink UI 界面两次窗口时间处理数据量如下：

从两张图中可以看出，在两次窗口触发时间中，第一次开窗对应的两个计算节点的输入数据都是 3，没有变化，但是输出数据量都从 1 变成 2，而且最后那个计算节点，也就是第二次开窗，接收的数据从 2 变成了 4，因此最终的结果输出，第二次的结果就是第一次结果的二倍。这一点，大家在具体使用中一定要注意，不可以将多个数据源第一次开窗的结果合并之后再次进行开窗。我上面使用的是渐进式窗口，滚动窗口理论上应该不会出现重复累加的问题，但是最终的结果在窗口时间上应该会滞后一个窗口时间。

12. WITH 子句

with 子句只能在一个 select 语句上面使用，不可单独编写，并且添加英文分号，将其作为一个单独的公共表达式，然后在多个 select 语句中使用。如果想实现在多个 select 语句中使用同一个公共表达式，可以通过创建临时视图来解决。

示例：

create temporary table source(
  s1 string,
  s2 string
) with (
  'connector' = 'kafka',
  'topic' = 'wzq_source',
  'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
  'properties.group.id' = 'test-1',
  'scan.startup.mode' = 'latest-offset',
  'scan.topic-partition-discovery.interval' = '1 h',
  'format' = 'csv'
);

create temporary table sink(
  s1 string
) with (
  'connector' = 'kafka',
  'topic' = 'wzq_sink',
  'properties.bootstrap.servers' = '${kafka-bootstrapserver}',
  'format' = 'csv'
);

insert into sink
with with1 as (
select concat(s1, '|', s2) as w1
from source
),
with2 as (
select concat(w1, '-', 'w2') as w2
from with1
)
select w2
from with2
;

你可能感兴趣的:(flink,flink,hive,flink,sql)

Oracle数据库性能调优完整指南.zip 高杉峻
本文还有配套的精品资源，点击获取简介：Oracle数据库性能优化是企业和数据库专业人员必须掌握的关键技能。Oracle作为广泛使用的数据库管理系统，其性能直接影响业务效率。本文档深入探讨了性能优化的各个方面，包括SQL优化、索引管理、表和分区设计、内存调优、系统资源管理、并发控制、日志和归档策略、性能监控和诊断，以及数据库架构优化和版本升级。通过综合考虑业务场景和硬件环境，结合Oracle提供的工
postgresql之语法解析浅析 happytree001 pg postgresql
一、pg语法简介1.1语法文件结构语法.y文件和词法.l文件结构差不多，也是通过%%分成了三个部分:声明部分、语法规则部分、C代码部分。src/backend/parser/gram.y####声明部分%{C代码头文件，变量声明等（此范围内的内容原样输出到文件中）#include"postgres.h"...%}#变量声明%union{core_YYSTYPEcore_yystype;/*thes
sqlplus连接Oracle 11g 数据库 zone-- sqlplus oracle
sqlplus连接Oracle11g数据库安装如下Oracle11g安装教程//Anhighlightedblocksqlplus有几种登陆方式比如：sqlplus"/assysdba"--以操作系统权限认证的oraclesys管理员登陆sqlplus/nolog--不在cmd或者terminal当中暴露密码的登陆方式conn/assysdbaconnsys/passwordassysdbasql
PostgreSQL 语法详解沐知全栈开发开发语言
PostgreSQL语法详解引言PostgreSQL是一款功能强大的开源对象关系型数据库管理系统（ORDBMS），广泛应用于各种规模的组织中。其丰富的功能和灵活性使得它成为了众多数据库开发者和运维人员的首选。本文将详细介绍PostgreSQL的语法，帮助读者快速掌握其基本操作。1.数据库连接在操作PostgreSQL之前，首先需要连接到数据库。以下是一个使用PostgreSQL客户端连接到本地数据
Oracle 数据库共享池与大池调优指南 zone-- 数据库 oracle
在Oracle数据库的内存管理中，共享池（SharedPool）和大池（LargePool）是SGA（系统全局区）中负责缓存与资源分配的核心组件。合理配置和调优这两个池，能显著提升数据库性能——尤其是在减少解析开销、降低锁竞争、优化内存利用率等方面。本文基于Oracle19c官方文档，系统梳理共享池与大池的调优思路、关键配置及实践方法。共享池：核心缓存与解析优化的关键共享池是SGA中用于缓存SQL
MySQL分布式架构深度实践：从分库分表到云原生集成软考和人工智能学堂 PHP和MySQL MySQL经验与技巧 wpf
1.分布式MySQL架构全景graphTDA[分布式MySQL体系]-->B[数据分片策略]A-->C[分布式事务处理]A-->D[读写分离扩展]A-->E[高可用架构]A-->F[云原生集成]B-->B1(水平分库分表)B-->B2(垂直分库分表)B-->B3(分片路由策略)B-->B4(全局ID方案)C-->C1(XA协议)C-->C2(TCC模式)C-->C3(SAGA模式)C-->C4(本
社交应用全栈开发实战：前后端与数据库整合
本文还有配套的精品资源，点击获取简介：本资源包详细介绍了构建一个社交应用程序的全过程，包括前端、后端以及数据库管理的核心组件和关键功能。Uniapp框架用于开发跨平台的移动端用户界面，Java后端负责处理业务逻辑和数据交互，MySQL数据库用于管理用户信息和动态数据。项目还包括前后端通信、身份验证、性能优化和推送通知服务的实现。学习这些代码可以提升开发者的技能，帮助快速构建社交应用。1.社交APP
新版进销存管理系统完整教程：PB9.0与SQL Server 2000的实战应用语嫣凝冰
本文还有配套的精品资源，点击获取简介：本文档提供了一个基于PowerBuilder9.0和SQLServer2000开发的进销存管理系统的全面教程。系统涵盖了企业管理中的采购、销售和库存管理环节，通过强大的数据窗口组件和三层架构设计，实现了业务逻辑和数据库的有效交互。文章详细解释了系统的技术栈、核心功能、系统架构、数据窗口组件、数据库设计、报表分析及权限安全管理等关键点，旨在帮助用户深入理解进销存
java学习day6 + leetcode31 下一个排列冬夜戏雪 java 学习算法
1.消息队列和一些功能P74P75P76基于stream的消息队列单消费模式消费者组P77基于消息队列的异步秒杀下单shift2提及，插入已知笔记P78探店笔记P79查看探店笔记p80点赞功能一人一赞这里也有并发P81点赞排行榜sortedsetset集合的选择redis里面的zsetmybatis改sql排序语句p82好友关注关注和取关p83共同关注redis里的set交集功能解析id集合没看懂
SQL中使用正则表达式示例整理中台小A SQL sql 正则表达式数据库
--查询找到所有的名字以'门户'开头SELECTrs.`name`FROMsystem_product_inforsWHERErs.`name`REGEXP'^门户';--查询找到所有的名字以'平台'结尾SELECTrs.`name`FROMsystem_product_inforsWHERErs.`name`REGEXP'平台$';--查询找到所有的名字包函'直销员'的字符串SELECTrs.`
9、SQL Server 2000 查询优化器详解 t4y5u6i7o SQL Server 2000性能优化之道 SQL Server 2000 查询优化器查询性能优化
SQLServer2000查询优化器详解1.查询优化器简介SQLServer2000包含一个名为查询优化器的组件，它会自动接收传递给它的查询，并尝试以最高效的方式执行查询。查询优化器的主要任务是通过最小化逻辑读取次数来优化查询性能。无论查询是从单个表中检索数据，还是从多个表中检索数据，查询优化器都会选择最有效率的执行路径。查询优化器不仅仅适用于SELECT语句，它同样适用于INSERT、UPDAT
2 MySQL配置文件详解笑Skr人啊
Windows图片.png复制配置文件[root@rootmysql]#cp/usr/share/mysql/my-huge.cnf/etc/my.cnfcp：是否覆盖"/etc/my.cnf"？y[client]port=3306#客户端端口号socket=/data/3306/mysql.sock#socket文件是linux/unix系统特有的，用户在该环境下的客户端连接可以不通过tcp/i
存储过程都有什么替代方案? 瑞信卡券提货系统存储过程
存储过程的替代方案主要有以下几种：ORM（对象关系映射）：ORM框架，如Hibernate、EntityFramework等，在客户端逻辑和数据库之间插入了一个层。这些框架能够生成SQL语句以在数据库上执行，从而避免了直接编写存储过程。使用ORM，开发人员可以在应用层表达复杂的业务逻辑，而无需将逻辑分散到存储过程中。ORM框架允许开发人员使用面向对象的方式操作数据库，提供了更高层次的抽象，使得代码
enq: HW - contention jnrjian oracle sql
Symptoms1.Thereisaperformanceslowdownwithalargenumberofwaitsfor'enqHW-contention'.2.ASHReportsshowsthewaitevent'enqHW-contention'whichincludesSQLwithLOBObjects.CauseTheHWenqueueisusedtomanagethealloca
ASM 下 file全名 jnrjian 数据库 oracle
HowtocollectthefullpathnameofthefilesinASMdiskgroupsSolutionSetyourORACLE_SIDtotheASMinstancename.ConnecttotheASMinstance:in10g:sqlplus/assysdbain11g:sqlplus/assysasmThenperformthefollowingquery:SELEC
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 MySQL存储引擎选择策略） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）MySQL存储引擎选择策略深度解析一、存储引擎选择决策框架1.核心决策维度2.关键评估指标矩阵二、典型业务场景引擎选择策略1.电商系统2.内容管理系统3.金融系统三、性能与一致性权衡策略1.CAP理论应用2.读写
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 InnoDB 架构与核心特性） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）一、InnoDB架构概述1.内存结构2.磁盘结构二、核心特性深度解析1.事务支持(ACID)2.多版本并发控制(MVCC)3.锁机制4.缓冲池优化5.双写缓冲区(DoubleWriteBuffer)三、关键性能优
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
docker容器中连接宿主机mysql数据库
最近要在docker中使用mysql数据库，首先考虑在ubuntu的镜像中安装mysql，这样的脚本和数据库都在容器中，直接访问localhost：3306，脚本很简单，如下：importpymysql#建立数据库连接db=pymysql.connect(port=3306,host="localhost",user="root",password="password",database="my_
MySql 运维性能优化
内存相关配置innodb_buffer_pool_size：这是InnoDB存储引擎最重要的参数，用于缓存数据和索引。建议设置为服务器可用内存的50%-70%（对于专用数据库服务器）。innodb_buffer_pool_size=8G#根据服务器内存调整innodb_log_buffer_size：用于缓存InnoDB日志。对于写入频繁的系统，可适当调大（默认16M）：innodb_log_bu
MySQL(150)如何进行数据库自动化运维？辞暮尔尔-烟火年年 MySQL 数据库运维 mysql
数据库自动化运维（DBAAutomation）是确保数据库高效、安全运行的关键步骤。自动化运维可以涵盖备份、恢复、监控、性能优化、数据迁移等多个方面。以下是一个详细的指南，展示如何使用Java进行数据库自动化运维，包括代码示例。一、环境准备确保安装有Java开发环境（JDK）、Maven（或Gradle）以及一个数据库（例如MySQL）。我们将使用JDBC来进行数据库操作，以及QuartzSche
Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
Python开发中，SQLAlchemy 的同步操作和异步操作封装，以及常规CRUD的处理。老少女王烦烦 python oracle 数据库开发语言
在我们使用Python来和数据库打交道中，SQLAlchemy是一个非常不错的ORM工具，通过它我们可以很好的实现多种数据库的统一模型接入，而且它提供了非常多的特性，通过结合不同的数据库驱动，我们可以实现同步或者异步的处理封装。1、SQLAlchemy介绍SQLAlchemy是一个功能强大且灵活的PythonSQL工具包和对象关系映射（ORM）库。它被广泛用于在Python项目中处理关系型数据库的
新一代会员分销返利小程序，聚合cps系统独立部署，对接20多个CPA/CPS资源 +V：ywxs5787 小程序开发 cps分销软件开发小程序 uniapp 微信小程序
技术栈前端：vue3+uniapp后端：PHP数据库：MySQL一、系统介绍PHP部分代码'value1','param2'=>'value2',//添加其他参数];//发送HTTPPOST请求$ch=curl_init();curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,CURLOPT_POST,true);curl_setopt($ch,CU
SQL注入万能密码微凉_z SQL注入万能密码
'or1='1'or'='or'adminadmin'--admin'or1=1--admin'or'1'='1'--admin888"or"a"="aadmin'or1=1#a'having1=1#a'having1=1--admin'or'2'='2')or('a'='aor1=1--a'or'1=1--"or1=1--'or'a'='a"or"="a'='a'or''=''or'='or'1
【PostgreSQL】【第1章】入门&安装 cherry5230 数据库专栏 postgresql 数据库
1-PostgreSQL入门&安装1.今日安排核心内容：PostgreSQL简介与适用场景PostgreSQLvsMySQL核心差异Linux环境安装（非Docker）远程连接与日志配置基本操作：用户、数据库、权限管理2.PostgreSQL介绍2.1核心特性开源协议：基于BSD/MIT协议，支持二次封装商业化。版本选择：稳定版：12.x新特性版：14.x社区活跃：版本迭代快（约3个月一次），Bu
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持