今天好好洗头了嘛

FlinkSQL总结(1.12)

FlinkSQL(1.12)

一、基本语法

1.1、建表语法

create table 表名 (
字段名 字段类型，
...
) with (
连接器配置
)

1.2、时间语义

1.2.1、事件时间

使用：在设置完字段后最后一行进行指定。

格式：watermark for 某时间字段名 AS 某时间字段名 - INTERVAL '某数字' SECOND

1.2.2、处理时间

使用：在设置完字段后最后一行进行指定。

格式：随便起一个字段名 as proctime()

二、Source

2.1、Kafka

一般连接器配置如下即可，其他配置详情见官网Apache Flink 1.12 Documentation: Apache Kafka SQL Connector

'connector' = 'kafka',
'topic' = 'topicName(自定义)',
'properties.bootstrap.servers' = 'ip:port,ip:port,ip:port(自定义)',
'properties.group.id' = 'groupId(自定义)',
'scan.startup.mode' = 'timestamp(可取其他值)',
'scan.startup.timestamp-millis' = '1662393600000(对应上述timestamp的模式)', -- 数据到达kafka的时间 2022-09-06 00:00:00
'format' = 'json',
'json.fail-on-missing-field' = 'false',
'json.ignore-parse-errors' = 'true'

注意：

普通的kafka不可以定义主键，会报错，因为他没有机制能保证语义上的主键唯一性。
启动位点scan.startup.mode，取值如下：
- earliest-offset：从Kafka最早分区开始读取。
- latest-offset：从Kafka最新位点开始读取。
- group-offsets（默认值）：根据Group读取。
- timestamp：从Kafka指定时间点读取。配置该参数时，同时需要在WITH参数中指定scan.startup.timestamp-millis参数。（这个参数为毫秒单位的时间戳，这个时间是对应kafka中数据的时间，就是broker接受到这条消息的时间）
- specific-offsets：从Kafka指定分区指定偏移量读取。配置该参数时，同时需要在WITH参数中指定scan.startup.specific-offsets参数。
json解析问题：
- json.fail-on-missing-field：如果为 true，则遇到缺失字段时，会让作业失败。如果为 false（默认值），则只会把缺失字段设置为 null 并继续处理。
- json.ignore-parse-errors：如果为 true，则遇到解析异常时，会把这个字段设置为 null 并继续处理。如果为 false（默认值），则会让作业失败。
- 两个参数不能同时为true，否则会抛异常Caused by: org.apache.flink.table.api.ValidationException: fail-on-missing-field and ignore-parse-errors shouldn't both be true.一般都是如上例子，一个true，一个false，表示如果数据解析异常则跳过这条数据，且如果解析没问题，但是找不到某字段，则设置这个字段值为null。
key和value问题：
- 如果除了value，我们还要解析key中的数据，则需要把key和value的format单独设置，且需要额外设置一个配置’value.fields-include’ = ‘EXCEPT_KEY’，表示我们需要的字段，在value中有些没有。默认是ALL，表示我们需要的字段，在value中都有。
- 如果除了value，我们还要解析key中的数据，且key中的键值和value中的键值有重名的情况，此时还需要额外设置一个配置’key.fields-prefix’ = ‘key_’，‘key.fields’ = ‘field1;field2’。
参数问题：
- flinksql水位线问题，如果source为kafka，kafka的并行度大于1，但是flink的并行度为1，此时如果kafka中某个分区没数据，这时候的flink的水位线一直不会触发（如果用javaApi的方式实现，是不会有这个问题的！！！）这种情况需要通过参数调整水位线推进。table.exec.source.idle-timeout=10000，单位是ms，如果其他分区没有等待多少ms后没有数据来，则自动推进水位线。

完整例子如下：

CREATE TABLE pageviews (
key_user_id BIGINT,
user_id BIGINT,
page_id BIGINT,
viewtime TIMESTAMP(3), --yyyy-MM-dd HH:mm:ss
user_region STRING,
WATERMARK FOR viewtime AS viewtime - INTERVAL '0' SECOND
 ) WITH (
'connector' = 'kafka',
'topic' = 'VIP-DT',
'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
'properties.group.id' = 'TestOpenSourceFlinkGroup',
'scan.startup.mode' = 'timestamp',
'scan.startup.timestamp-millis' = '1662393600000',
   
'key.format' = 'json',
'key.json.ignore-parse-errors' = 'true',
'key.json.fail-on-missing-field' = 'false',
'key.fields-prefix' = 'key_',
'key.fields' = 'key_user_id',
   
'value.format' = 'json',
'value.json.ignore-parse-errors' = 'true',
'value.json.fail-on-missing-field' = 'false',
'value.fields-include' = 'EXCEPT_KEY'
);

2.2、Upsert-Kafka

一般连接器配置如下即可，相对于普通kafkaSource，他不能设置流开始的位点，以及他必须设置主键，主键就是对应的key值。（大部分的配置基本都和2.1kafka的配置相同）

'connector' = 'upsert-kafka',
'topic' = 'topicName(自定义)',
'properties.bootstrap.servers' = 'ip:port,ip:port,ip:port(自定义)',
'properties.group.id' = 'groupId(自定义)',
'key.format' = 'json',
'key.json.ignore-parse-errors' = 'true',
'key.json.fail-on-missing-field' = 'false',
'key.fields-prefix' = 'key_',

'value.format' = 'json',
'value.json.ignore-parse-errors' = 'true',
'value.json.fail-on-missing-field' = 'false',
'value.fields-include' = 'EXCEPT_KEY'

**注意1：**如果source为upsert-kafka，那么意味着从source开始，这条流就是回撤流，我们可以对这条流进行简单group by，但是不能进行开窗口。group by之后的数据需要用可支持upsert的sink进行接受。比如upsert-kafka，但是注意的是，upsert-kafka接受回撤流时，如果是删除的消息，他的value值为空（注意：没有开窗口的group by可以对回撤流进行，也可以对普通append流进行，但是最终返回的都是回撤流）

回撤流有以下规则：

+I对应新增的数据
-U对应回撤某条数据
+U对应更新后的数据
-D对应删除某条数据

当回撤流写入到upsert-kafka中有以下规则：

-U的数据不会进入sink,
+I，+U，-D的数据会进入sink，但是-D的数据sink中会没有value值

产生回撤流场景：

Aggregate Without Window（不带 Window 的聚合场景）
Rank
Over Window
Left/Right/Full Outer Join

**注意2：**在flink1.11是不支持upsert-kafka的，如果source需要是回撤流，那么kakfa中的数据格式需要是这几个canal-json，debezium-json，maxwel-json，此时我们定义kafka source时，我们的format格式可以知道对应的canal-json，debezium-json，maxwel-json其中一种。相反如果kafka中的json对应的是以上三种格式之一，我们可以通过对应的format格式去接受。如果要进行数据的去重操作，则需要可以定义主键，且flink的参数中加上table.exec.source.cdc-events-duplicate=true，这时框架会生成一个额外的有状态算子，使用该 primary key 来对变更事件去重并生成一个规范化的 changelog 流。

三、流处理场景

3.1、单流

3.1.1、简单聚合

使用：

和正常sql一样对某些字段进行分组，然后求聚合值，只不过会利用状态存储流过来的数据。注意：如果要进行简单聚合，下游必须支持upsert，否则会报错doesn't support consuming update changes which is produced by node GroupAggregate

格式：

group by 字段名

3.1.2、窗口

使用：

group by后，与正常sql的group by一样使用，只不过不是对某字段group by，而是对一个函数进行group by。

格式：

group by tumble(时间字段，间隔时间) 。当然也可以和其他正常字段一起使用，group by 某字段名, tumble(时间字段，间隔时间) 。除了tumble，还有hop和session函数，分别是滚动、滑动、会话窗口。hop中有三个参数，前两个和tumble一样，第三个是一个时间参数，表示滑动间隔。

3.1.3、TopN

使用：

求实时热度等场景时使用，可以在回撤流和普通流上使用，返回一个回撤流

格式：

和传统的开窗函数一样，row_number() over(partition by 字段 order by 字段 desc)

注意：

有一个bug，在使用时必须在外侧套一层select，且必须有where条件，条件必须是rn<某数，或rn=某数，或rn<=某数[FLINK-26051]

3.1.4、视图

使用：

可以用，在写一些复杂sql时，可以使用视图来创建一些中间表，来使代码看起来更易于理解。一个视图内也可以查另一个视图。

格式：

create view as select语句

3.2、双流join

3.2.1、正常join(inner，left，right，full)

使用：select * from a inner/left/right/full join b on a.id = b.id;

返回：Flink会通过状态保存两条流的数据，最终会产生一条回撤流。

问题：状态会越来越大，需要定期清除状态。

为什么是回撤流：

以 left Join 为例，且假设左流的数据比右流的数据先到，左流的数据会去扫描右流数据的状态，如果找不到可以 Join 的数据，左流并不知道右流中是确实不存在这条数据还是说右流中的相应数据迟到了。为了满足 left join 的语义的话，左边流数据还是会产生一条 join 数据发送到下游，类似于 MySQL Left Join，左流的字段以正常的表字段值填充，右流的相应字段以 Null 填充，然后输出到下游。

后期如果右流的相应数据到达，会去扫描左流的状态再次进行 join，此时，为了保证语义的正确性，需要把前面已经输出到下游的这条特殊的数据进行回撤，同时会把最新 join 上的数据输出到下游。注意，对于相同的 Key，如果产生了一次回撤，是不会再产生第二次回撤的，因为如果后期再有该 Key 的数据到达，是可以 join 上另一条流上相应的数据的。

3.2.2、interval join

使用：在普通join的基础上增加一些条件，①on后边的关联条件需要多一个时间关联②on后边的时间条件必须和事件时间的字段或者处理时间的时间字段相同。满足这两个条件才是interval join，否则就是普通join。我们可以在flink的webUI上看join的类型。

返回：返回一个普通追加流。

问题：需要自己把握设置一个窗口时间。

注意：interval只支持innerjoin，不支持left，right，full join。

举例：

前提：
	source1：es为事件时间或者处理时间
	source2：es为事件时间或者处理时间
语句1：
	select * from a,b where a.id=b.id and b.es between a.es and a.es + interval '5' second;
语句2：
	select * from a inner/left/right/full join b on a.id=b.id and/where b.es between a.es and 	a.es + interval '5' second;
join类型：
	都是interval join，而且interval join都是inner join，出来的流都是追加流。

验证：去webui上看是否是interval join。在webui上也可以看到jointype，但是如果是interval join，他的jointype一定是inner join（如果你在insert语句中写的是其他left/right/full，在webui上看见的也是left/right/full，但是实际上还是inner join，最终数据不会出现，左右两边有一边为null的情况，输出的还是一个append流。）

3.2.3、时态表join

定义：

时态表就是一张随时间变化的表。

种类：

一种是我们可以访问他的历史版本，这种是版本表，比如回撤流；
一种是我们只能访问到当前最新的版本，这种是普通表，比如一些数据库维表。

如何获取版本表：（个人理解版本表就是一个带有事件时间的回撤流）

一种是创建kafka源表，且format格式为cdc格式（canal/maxwell/debezium），定义主键，定义事件时间。
一种是创建upsert kafak源表，定义主键，定义事件时间。
一种是通过视图获得，核心是转化append流为retract流。首先append流一定得有事件事件，其次在创建视图时候，通过row_number或者group by等操作返回一条retract流。（如果上游是kafka，且数据类型不是cdc类型，且我们需要指定数据的起始位点，这时候我们就要通过视图来获取到版本表）

官网案例：

-- source1
CREATE TABLE orders  (
  order_id STRING,
  product_id STRING,
  order_time TIMESTAMP(3),
  WATERMARK FOR order_time AS order_time  -- defines the necessary event time
) WITH (
  'connector' = 'kafka',
  'topic' = 'TEST-ODS_BUFFER_SHUNT',
  'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
  'properties.group.id' = 'TestOpenSourceFlinkGroup',
  'scan.startup.mode' = 'timestamp',
  'scan.startup.timestamp-millis' = '1663917600000',
  'value.format' = 'json',
  'value.json.ignore-parse-errors' = 'true',
  'value.json.fail-on-missing-field' = 'false'
);
-- sourcr2
CREATE TABLE product_changelog   (
  product_id STRING,
  product_name STRING,
  product_price DECIMAL(10, 4),
  update_time TIMESTAMP(3) METADATA FROM 'value.ingestion-timestamp' VIRTUAL, -- 注意：自动从毫秒数转为时间戳
  PRIMARY KEY(product_id) NOT ENFORCED,      -- (1) defines the primary key constraint
  WATERMARK FOR update_time AS update_time   -- (2) defines the event time by watermark      
) WITH (
  'connector' = 'kafka',
  'topic' = 'TEST-ODS_BUFFER_SHUNT2',
  'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
  'properties.group.id' = 'TestOpenSourceFlinkGroup',
  'scan.startup.mode' = 'timestamp',
  'scan.startup.timestamp-millis' = '1663917600000', --kafka的时间 2022-09-23 15:20:00
  'value.format' = 'debezium-json'
);

-- sink 
create table printSink(
  order_id STRING,
  order_time TIMESTAMP(3),
  product_name STRING,
  product_time TIMESTAMP(3),
  price DECIMAL(10, 4)
)with(
  'connector' = 'print'
);

-- 基于事件时间的时态表 Join
insert into printSink 
SELECT
  O.order_id,
  O.order_time,
  P.product_name,
  P.update_time AS product_time,
  P.product_price AS price
FROM orders AS O
LEFT JOIN product_changelog FOR SYSTEM_TIME AS OF O.order_time AS P
ON O.product_id = P.product_id;


-- source1对应数据
{"order_id":"o_001","product_id":"111","order_time":"2022-09-23 00:01:00"}
{"order_id":"o_002","product_id":"222","order_time":"2022-09-23 00:02:00"}
{"order_id":"o_003","product_id":"111","order_time":"2022-09-23 12:00:00"}
{"order_id":"o_004","product_id":"222","order_time":"2022-09-23 12:00:00"}
{"order_id":"o_005","product_id":"111","order_time":"2022-09-23 18:00:00"}

-- source2对应数据
{"before":null,"after":{"product_id":"111","product_name":"scooter","product_price":11.11},"source":{},"op":"c","ts_ms":1663862460000,"transaction":null}

{"before":null,"after":{"product_id":"222","product_name":"basketball","product_price":23.11},"source":{},"op":"c","ts_ms":1663862520000,"transaction":null}

{"before":{"product_id":"111","product_name":"scooter","product_price":11.11},"after":{"product_id":"111","product_name":"scooter","product_price":12.99},"source":{},"op":"u","ts_ms":1663905600000,"transaction":null}

{"before":{"product_id":"222","product_name":"basketball","product_price":23.11},"after":{"product_id":"222","product_name":"basketball","product_price":19.99},"source":{},"op":"u","ts_ms":1663905600000,"transaction":null}

{"before":{"product_id":"111","product_name":"scooter","product_price":12.99},"after":null,"source":{},"op":"d","ts_ms":1663927200000,"transaction":null}

3.3、流表join

使用：当流数据需要关联一些维表时，需要去对应数据库异步对应的维度信息，此时需要使用流表join。流表join，也是时态表join的一种，因为数据库维表就相当于一个版本表，只有一个最新的快照版本。

注意：流表需要用处理时间，进行join时，使用这个处理时间。

案例：

CREATE TABLE orders (
  order_id string,
  order_channel string,
  order_time  string,
  pay_amount double,
  real_pay double,
  pay_time string,
  user_id string,
  user_name string,
  area_id string,
  proctime as Proctime() --维表join需要用处理时间
--   WATERMARK FOR order_time AS order_time
) WITH (
  'connector' = 'kafka',
  'topic' = 'TEST-ODS_BUFFER_SHUNT',
  'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
  'properties.group.id' = 'TestOpenSourceFlinkGroup',
  'scan.startup.mode' = 'timestamp',
  'scan.startup.timestamp-millis' = '1664344800000', --kafka的时间 2022-09-28 14:00:00
  'value.format' = 'json',
  'value.json.ignore-parse-errors' = 'true',
  'value.json.fail-on-missing-field' = 'false'
);

--创建地址维表
create table area_info (
    area_id string, 
    area_province_name string,
    area_city_name string,
    area_county_name string, 
    area_street_name string, 
    region_name string 
) WITH (
  'connector' = 'jdbc',
  'url' = 'jdbc:mysql://10.1.12.99:3306/srm_mock_dt?useSSL=false&useUnicode=true&characterEncoding=utf8&serverTimeZone=Asia/Shanghai',
  'table-name' = 'area_info_flinksql_test',
  'username' = 'root',
  'password' = '6nN@@UQ5f%9u'
);

--根据地址维表生成详细的包含地址的订单信息宽表
create table order_detail(
    order_id string,
    order_channel string,
    order_time string,
    pay_amount double,
    real_pay double,
    pay_time string,
    user_id string,
    user_name string,
    area_id string,
    area_province_name string,
    area_city_name string,
    area_county_name string,
    area_street_name string,
    region_name string
) with (
  'connector' = 'print'
);

insert into order_detail
    select orders.order_id, orders.order_channel, orders.order_time, orders.pay_amount, orders.real_pay, orders.pay_time, orders.user_id, orders.user_name,
           area.area_id, area.area_province_name, area.area_city_name, area.area_county_name,
           area.area_street_name, area.region_name  from orders 
           left join area_info for system_time as of orders.proctime as area on orders.area_id = area.area_id;

四、Sink

4.1、Kafka

连接器配置可参考2.1，kafkaSource也可以看作是具体kafka中的数据，往flink内部流入的一个sink

4.2、Upset-Kafka

连接器配置可参考2.2

4.3、Mysql

使用：下游是mysql时，我们可以实现数据的upsert/delete

案例1：

-- {"id":"1","name":"张三","age":18,"sex":"男","amount":20.56}
-- 上游数据是append流，可以实现数据的update，需要定义主键，此主键可以和真实数据库的主键不一样。
CREATE TABLE kafka_source (
    id bigint, 
    name string,
    age int,
    sex string, 
    amount decimal(20,10)
) WITH (
  'connector' = 'kafka',
  'topic' = 'TEST-ODS_BUFFER_SHUNT',
  'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
  'properties.group.id' = 'TestOpenSourceFlinkGroup',
  'scan.startup.mode' = 'timestamp',
  'scan.startup.timestamp-millis' = '1664348400000', --kafka的时间 2022-09-28 15:00:00
  'value.format' = 'json',
  'value.json.ignore-parse-errors' = 'true',
  'value.json.fail-on-missing-field' = 'false'
);


create table mysql_sink (
    id bigint, 
    name string,
    age int,
    sex string, 
    amount decimal(20,10),
    PRIMARY KEY (name) NOT ENFORCED --真实数据库主键为id，这里可以不为id，如果可以确保某字段唯一，									  --也可以用此字段
) WITH (
  'connector' = 'jdbc',
  'url' = 'jdbc:mysql://10.1.12.99:3306/srm_mock_dt?useSSL=false&useUnicode=true&characterEncoding=utf8&serverTimeZone=Asia/Shanghai',
  'table-name' = 'user_flinksql_test',
  'username' = 'root',
  'password' = '6nN@@UQ5f%9u'
);


insert into mysql_sink
select * from kafka_source;

案例2：

-- 上游数据是retreat流，可以实现数据的update/delete，需要定义主键，此主键可以和真实数据库的主键不一样。
CREATE TABLE kafka_source (
    id bigint,
    name string,
    age int,
    sex string,
    amount decimal(20,10)
) WITH (
  'connector' = 'kafka',
  'topic' = 'TEST-ODS_BUFFER_SHUNT',
  'properties.bootstrap.servers' = '192.168.7.105:9092,192.168.7.61:9092,192.168.7.221:9092',
  'properties.group.id' = 'TestOpenSourceFlinkGroup',
  'scan.startup.mode' = 'timestamp',
  'scan.startup.timestamp-millis' = '1664348400000', --kafka的时间 2022-09-28 15:00:00
  'value.format' = 'json',
  'value.json.ignore-parse-errors' = 'true',
  'value.json.fail-on-missing-field' = 'false'
);

create table mysql_sink (
    id bigint,
    name string,
    age int,
    sex string,
    amount decimal(20,10),
    PRIMARY KEY (name) NOT ENFORCED
) WITH (
  'connector' = 'jdbc',
  'url' = 'jdbc:mysql://10.1.12.99:3306/srm_mock_dt?useSSL=false&useUnicode=true&characterEncoding=utf8&serverTimeZone=Asia/Shanghai',
  'table-name' = 'user_flinksql_test',
  'username' = 'root',
  'password' = '6nN@@UQ5f%9u'
);

insert into mysql_sink
select * from kafka_source;

-- 数据：
-- {"before":null,"after":{"id":"1","name":"张三","age":18,"sex":"男","amount":20.56},"source":{},"op":"c","ts_ms":1663862460000,"transaction":null}

-- {"before":{"id":"1","name":"张三","age":18,"sex":"男","amount":20.56},"after":{"id":"1","name":"张三","age":19,"sex":"男","amount":20.56},"source":{},"op":"u","ts_ms":1663862460000,"transaction":null}

-- {"before":{"id":"1","name":"张三","age":19,"sex":"男","amount":20.56},"after":null,"source":{},"op":"d","ts_ms":1663862460000,"transaction":null}

四、问题

4.1、水位线不推进

场景：source为kafka，kafka分区数大于1，flink的并行度为1，kafka某个分区没数据。

解决：设置参数table.exec.source.idle-timeout=10000，单位是ms，如果其他分区等待xx毫秒没数据，则推进水位线。（如果这个场景是javaAPI的方式对接kafka，则是不会出现的。）

你可能感兴趣的:(Flink,flink,大数据,sql)

pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
如何安全删除MySQL字段？从原理到实战的保姆级指南！小丁学Java 产品资质管理系统安全 mysql 数据库
从MyISAM到InnoDB：解锁MySQL在线删除字段的终极指南真实案例：一次失败的DDL操作引发的思考场景复现：某业务表invite_codes需要删除invitor字段，执行以下命令时触发报错：ALTERTABLEinvite_codesDROPCOLUMNinvitor,ALGORITHM=INPLACE;--报错信息：ALGORITHM=INPLACEisnotsupportedfort
mysql与mariadb版本对应_MySQL与MariaDB及各种版本杂谈 weixin_39616416
MySQL1.MySQLCommunityServer社区版本，开源免费，但不提供官方技术支持。(我们通常使用的MySQL版本)2.MySQLEnterpriseEdition企业版本，需付费，可以试用30天。3.MySQLCluster集群版，开源免费。可将几个MySQLServer封装成一个Server。4.MySQLClusterCGE高级集群版，需付费。5.MySQLWorkbench(G
SQL 错误 [1064] [42000] You have an error in your SQL syntax； check the manual that corresponds to yo web14786210723 sql 数据库
在为用户指定数据的时候，报错了，SQL错误[1064][42000]:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyoGRANTALLPRIVILEGESONjeecg-boot.*TO'jeecgoot'@'%';ERROR1064(42000):YouhaveanerrorinyourSQLsyntax;checkt
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
因为mysql 8新的认证插件导致主从复制的IO线程失败库海无涯 mysql
1、错误信息Last_IO_Error:errorconnectingtomaster'[email protected]:3306'-retry-time:60retries:1message:Authenticationplugin'caching_sha2_password'reportederror:Authenticationrequiressecureconnection.2、
MySQL HA的全新篇章：Semisynchronous Replication迁移至InnoDB Cluster的实用指南库海无涯 MySQL mysql
1、概述临时接了一个搭建InnoDBCluster的活儿，客户给我说是有数据的，我当时想这不是非常简单吗？干活儿的时候，才发现并没有这么简单，接手的时候发现是SemisynchronousReplication的环境，然后把从库切换成InnoDBCluster的primary。2、环境复现2.1、从库5.140信息采集mysql>showreplicastatus\G***************
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种
7种数据结构就很对数据结构 windows
7种数据结构顺序表sqlite.hseqlite.c单链表linklist.clinklist.h双链表doulinklist.cdoulinklist.h链式栈linkstack.clinkstack.h队列SeqQueue.cSeqQueue.h树tree.c哈希表hash.c顺序表sqlite.h#ifndef__SEQLIST_H__#define__SEQLIST_H__typedefs
docker 内容器访问另一个容器中的服务 docker容器网络
docker中有两个容器，分别名为mq和hyperf，想在hyperf中访问mq可以使用下面的方法1.创建网络dockernetworkcreatemynetwork2.将使用到的容器(如业务容器，mysql，redis，mq等容器)都加入到网络中dockernetworkconnectmynetworkhyperfdockernetworkconnectmynetworkmqdockernetw
使用Docker部署MySQL8.0.29 九思x docker
第一步：拉取镜像dockerpullmysql:8.0.29作用：从DockerHub拉取MySQL8.0.29官方镜像。第二步：启动容器dockerrun--nameshare_mysql\--restart=always\-vmysql-data:/var/lib/mysql\-p3306:3306\-eMYSQL_ROOT_PASSWORD=root\-dmysql:8.0.29参数说明：-
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
记录一次truncate导致MySQL夯住的故障猿小喵 MySQL #故障诊断与恢复 #备份恢复 mysql 数据库
目录环境信息：故障描述：处理过程：原理分析：showprocesslist结果中的systemlock含义：truncate原理：1.TRUNCATE的执行流程2、TRUNCATE表导致数据库夯住的原因3、TRUNCATE表导致数据库夯住的解决方案4、killTRUNCATE语句失败后，主从数据不一致的原因：5、为什么TRUNCATETABLEusers会影响其他表的SQL6、为什么KILL语句无
《MySQL 入门教程》第 30 篇数据库索引不剪发的Tony老师 MySQL入门教程 mysql 索引 create index drop index
文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。索引可以用于提高数据库的查询性能；但是索引需要占用额外的磁盘空间，修改数据时也需要进行索引的维护。了解并适当利用索引对于数据库的优化至关重要，本篇我们介绍MySQL索引的管理。关于B-树索引的原理以及利用索引优化SQL语句的详细
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
青少年编程与数学 02-011 MySQL数据库应用 10课题、记录的操作明月看潮生编程与数学第02阶段数据库青少年编程 mysql 编程与数学
青少年编程与数学02-011MySQL数据库应用10课题、记录的操作一、表的记录表的记录的组成示例插入记录查看记录记录的操作1.插入记录（INSERT）2.更新记录（UPDATE）3.删除记录（DELETE）4.查询记录（SELECT）记录的约束示例：带约束的表总结二、添加记录1.插入单条记录插入单条记录2.插入多条记录插入多条记录3.插入部分字段插入部分字段4.插入查询结果插入查询结果5.插入时
hive相关命令 Wang·Br bigdata 笔记 hive
hive相关命令1.hive-helphive-e:不进入hive交互窗口，执行sql语句hive-e"select*users"hive-f:执行脚本中sql语句#创建文件hqlfile1.sql，内容：select*fromusers#执行文件中的SQL语句hive-fhqlfile1.sql#执行文件中的SQL语句，将结果写入文件hive-fhqlfile1.sql>>result1.log
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
Spring Boot 项目 90% 存在这 15 个致命漏洞，你的代码在裸奔吗？风象南原创随笔 java spring boot 后端 web安全系统安全
文章首发公众号【风象南】SpringBoot作为一款广泛使用的Java开发框架，虽然为开发者提供了诸多便利，但也并非无懈可击，其安全漏洞问题不容忽视。本文将深入探讨SpringBoot常见的安全漏洞类型、产生原因以及相应的解决方案，帮助开发者更好地保障应用程序的安全。1.SQL注入漏洞漏洞描述：当应用程序使用用户输入的数据来构建SQL查询时，如果没有进行适当的过滤或转义，攻击者就可以通过构造恶意的
「MySQL」日期时间格式化函数 DATE_FORMAT() 的使用详解 m0_74823827 mysql adb android
目录一、DATE_FORMAT()语法二、格式化字符串详解三、常见日期时间格式组合四、业务场景五、总结一、DATE_FORMAT()语法DATE_FORMAT()是MySQL中用于格式化日期时间的函数：语法：DATE_FORMAT(date,format_string)date：需要格式化的日期化时间值，一般是需要被格式化的日期时间类型(datetime类)，但也可以是日期时间形式的字符串form
SQL-触发器(trigger)的详解以及代码演示 m0_74823827 面试学习路线阿里巴巴 sql 数据库服务器
一、触发器的概念触发器是一种特殊的存储过程，但是触发器不存在输入和输出参数，所以不能被显式的去调用，而是与特定的表相关联，当表中的数据发生变化时，触发器被激活并执行其定义的SQL代码。触发器可以是行级触发器（针对每一行数据变化）或语句级触发器（针对整个SQL语句的变化），行级触发器允许对每一行单独处理，而语句级触发器则在整个操作完成后执行一次。触发器的功能强化约束：触发器能够实现比CHECK语句更
后端安全可靠性 Small踢倒coffee_氕氘氚 python自学笔记经验分享
第一步应该提到参数化查询，也就是预编译语句。这是最有效的方法，比如用PDO或者预处理语句来分离数据和指令。然后，ORM框架也是一个好办法，因为它们通常自动处理参数化，减少手写SQL的机会。接下来，输入验证和过滤很重要。虽然不能完全依赖，但白名单验证比如只允许特定字符，或者转义特殊字符，比如MySQL的mysqli_real_escape_string。不过要注意转义不是绝对安全，尤其是不同数据库有
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要