亚马逊云开发者

多库多表场景下使用 Amazon EMR CDC 实时入湖最佳实践

一、前言CDC(Change Data Capture) 从广义上讲所有能够捕获变更数据的技术都可以称为 CDC，但本篇文章中对 CDC 的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析 MySQL 数据库的 Binlog 日志捕获变更数据，而不是通过 SQL Query 源表捕获变更数据。 Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID 和并发写支持。Hudi 不是一个 Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在 S3(也支持其它对象存储和 HDFS)，Hudi 来决定数据以什么格式存储在 S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID 等特性。Hudi 通过 Spark，Flink 计算引擎提供数据写入, 计算能力，同时也提供与 OLAP 引擎集成的能力，使 OLAP 引擎能够查询 Hudi 表。从使用上看 Hudi 就是一个 JAR 包，启动 Spark, Flink 作业的时候带上这个 JAR 包即可。Amazon EMR 上的 Spark，Flink，Presto ，Trino 原生集成 Hudi, 且 EMR 的 Runtime 在 Spark，Presto 引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb 等)中的数据通过 CDC 的方式以分钟级别(1minute+)延迟写入 Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表 CDC 数据并行写入 Hudi，降低开发维护成本。第二，源端 Schema 变更如何同步到 Hudi 表。第三，使用 Hudi 增量查询构建数仓层次比如 ODS->DWD->DWS (各层均是 Hudi 表)，DWS 层的增量聚合如何实现。本篇文章推荐的方案是: 使用 Flink CDC DataStream API (非 SQL)先将 CDC 数据写入 Kafka，而不是直接通过 Flink SQL 写入到 Hudi 表，主要原因如下，第一，在多库表且 Schema 不同的场景下，使用 SQL 的方式会在源端建立多个 CDC 同步线程，对源端造成压力，影响同步性能。第二，没有 MSK 做 CDC 数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC 数据写入到 MSK 后，推荐使用 Spark Structured Streaming DataFrame API 或者 Flink StatementSet 封装多库表的写入逻辑，但如果需要源端 Schema 变更自动同步到 Hudi 表，使用 Spark Structured Streaming DataFrame API 实现更为简单，使用 Flink 则需要基于 HoodieFlinkStreamer 做额外的开发。Hudi 增量 ETL 在 DWS 层需要数据聚合的场景的下，可以通过 Flink Streaming Read 将 Hudi 作为一个无界流，通过 Flink 计算引擎完成数据实时聚合计算写入到 Hudi 表。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

二、架构设计与解析

2.1 CDC 数据实时写入 MSK

图中标号1,2是将数据库中的数据通过 CDC 方式实时发送到 MSK (Amazon 托管的 Kafka 服务)。flink-cdc-connectors 是当前比较流行的 CDC 开源工具。它内嵌debezium 引擎，支持多种数据源，对于 MySQL 支持 Batch 阶段(全量同步阶段)并行，无锁，Checkpoint (可以从失败位置恢复，无需重新读取，对大表友好)。支持 Flink SQL API 和 DataStream API，这里需要注意的是如果使用 SQL API 对于库中的每张表都会单独创建一个链接，独立的线程去执行 binlog dump。如果需要同步的表比较多，会对源端产生较大的压力。在需要整库同步表非常多的场景下，应该使用 DataStream API 写代码的方式只建一个 binlog dump 同步所有需要的库表。另一种场景是如果只同步分库分表的数据，比如 user 表做了分库，分表，其表 Schema 都是一样的，Flink CDC 的 SQL API 支持正则匹配多个库表，这时使用 SQL API 同步依然只会建立一个 binlog dump 线程。需要说明的是通过 Flink CDC 可以直接将数据 Sink 到 Hudi, 中间无需 MSK，但考虑到上下游的解耦，数据的回溯，多业务端消费，多表管理维护，依然建议 CDC 数据先到 MSK，下游再从 MSK 接数据写入 Hudi。

2.2 CDC 工具对比

图中标号3，除了 flink-cdc-connectors 之外，DMS (Amazon Database Migration Services) 是 Amazon 托管的数据迁移服务，提供多种数据源 (mysql,oracle,sqlserver,postgres,mongodb,documentdb 等)的 CDC 支持，支持可视化的 CDC 任务配置，运行，管理，监控。因此可以选择 DMS 作为 CDC 的解析工具，DMS 支持将 MSK 或者自建 Kafka 作为数据投递的目标，所以 CDC 实时同步到 MSK 通过 DMS 可以快速可视化配置管理。当然除了 DMS 之外还有很多开源的 CDC 工具，也可以完成 CDC 的同步工作，但需要在 EC2 上搭建相关服务。下图列出了 CDC 工具的对比项，供大家参考

2.3 Spark Structured Streaming 多库表并行写 Hudi 及 Schema 变更

图中标号4，CDC 数据到了 MSK 之后，可以通过 Spark/Flink 计算引擎消费数据写入到 Hudi 表，我们把这一层我们称之为 ODS 层。无论 Spark 还是 Flink 都可以做到数据 ODS 层的数据落地，使用哪一个我们需要综合考量，这里阐述一些相对重要的点。首先对于 Spark 引擎，我们一定是使用 Spark Structured Streaming 消费 MSK 写入 Hudi，由于可以使用 DataFrame API 写 Hudi, 因此在 Spark 中可以方便的实现消费 CDC Topic 并根据其每条数据中的元信息字段(数据库名称，表名称等)在单作业内分流写入不同的 Hudi 表，封装多表并行写入逻辑，一个 Job 即可实现整库多表同步的逻辑。样例代码截图如下，完整代码点击 Github 获取

我们知道 CDC 数据中是带着 I(insert)、U(update)、D(delete) 信息的, 不同的 CDC 工具数据格式不同，但要表达的含义是一致的。使用 Spark 写入 Hudi 我们主要关注 U、D 信息，数据带着U信息表示该条数据是一个更新操作，对于 Hudi 而言只要设定源表的主键为 Hudi 的 recordKey，同时根据需求场景设定 precombineKey 即可。这里对 precombineKey 做一个说明，它表示的是当数据需要更新时(recordKey 相同), 默认选择两条数据中 precombineKey 的大保留在 Hudi 中。其实 Hudi 有非常灵活的 Payload 机制，通过参数 hoodie.datasource.write.payload.class 可以选择不同的 Payload 实现，比如 Partial Update (部分字段更新)的Payload实现 OverwriteNonDefaultsWithLatestAvroPayload，也可以自定义 Payload 实现类，它核心要做的就是如何根据 precombineKey 指定的字段更新数据。所以对于 CDC 数据 Sink Hudi 而言，我们需要保证上游的消息顺序，只要我们表中有能判断哪条数据是最新的数据的字段即可，那这个字段在 MySQL 中往往我们设计成数据更新时间 modify_time timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP 。如果没有类似字段，建议定义设计规范加上这个字段，否则就必须保证数据有序(这会给架构设计和性能带来更多的阻力)，不然数据在 Hudi 中 Updata 的结果可能就是错的。对于带着 D 信息的数据，它表示这条数据在源端被删除，Hudi 是提供删除能力的，其中一种方式是当一条数据中包含 _hoodie_is_deleted 字段，且值为 true 是，Hudi 会自动删除此条数据，这在 Spark Structured Streaming 代码中很容易实现，只需在 map 操作实现添加一个字段且当数据中包含 D 信息设定字段值为 true 即可。

2.4 Flink StatementSet 多库表 CDC 并行写 Hudi

对于使用 Flink 引擎消费 MSK 中的 CDC 数据落地到 ODS 层 Hudi 表，如果想要在一个 JOB 实现整库多张表的同步，Flink StatementSet 来实现通过一个 Kafka 的 CDC Source 表，根据元信息选择库表 Sink 到 Hudi 中。但这里需要注意的是由于 Flink 和 Hudi 集成，是以 SQL 方式先创建表，再执行 Insert 语句写入到该表中的，如果需要同步的表有上百之多，封装一个自动化的逻辑能够减轻我们的工作，你会发现 SQL 方式写入 Hudi 虽然对于单表写入使用上很方便，不用编程只需要写 SQL 即可，但也带来了一些限制，由于写入 Hudi 时是通过 SQL 先建表，Schema 在建表时已将定义，如果源端 Schema 变更，通过 SQL 方式是很难实现下游 Hudi 表 Schema 的自动变更的。虽然在 Hudi 的官网并未提供 Flink DataStream API 写入 Hudi 的例子，但 Flink 写入 Hudi 是可以通过 HoodieFlinkStreamer 以 DataStream API 的方式实现，在 Hudi 源码中可以找到。因此如果想要更加灵活简单的实现多表的同步，以及 Schema 的自动变更，需要自行参照 HoodieFlinkStreamer 代码以 DataStream API 的方式写 Hudi。对于 I,U,D 信息，Flink 的 debezium ,maxwell,canal format 会直接将消息解析为 Flink 的 changelog 流，换句话说就是 Flink 会将 I,U,D 操作直接解析成 Flink 内部的数据结构 RowData，直接 Sink 到 Hudi 表即可，我们同样需要在 SQL 中设定 recordKey，precombineKey，也可以设定 Payload class 的不同实现类。

2.5 Flink Streaming Read 模式读 Hudi 实现 ODS 层聚合

图中标号5，数据通过 Spark/Flink 落地到 ODS 层后，我们可能需要构建 DWD 和 DWS 层对数据做进一步的加工处理，（DWD 和 DWS 并非必须的，根据你的场景而定，你可以直接让 OLAP 引擎查询 ODS 层的 Hudi 表）我们希望能够使用到 Hudi 的增量查询能力，只查询变更的数据来做后续 DWD 和 DWS 的 ETL，这样能够加速构建同时减少资源消耗。对于 Spark 引擎，在 DWD 层如果仅仅是对数据做 map,fliter 等相关类型操作，是可以使用增量查询的，但如果 DWD 层的构建有 Join 操作，是无法通过增量查询实现的，只能全表(或者分区)扫描。DWS 层的构建如果聚合类型的操作没有去重，窗口类型的操作，只是 SUM, AVG，MIN, MAX 等类型的操作，可以通过增量查询之后和目标表做 Merge 实现，反之，只能全表(或者分区)扫描。对于 Flink 引擎来构建 DWD 和 DWS, 由于 Flink 支持 Hudi 表的 streaming read, 在 SQL 设定 read.streaming.enabled= true,changelog.enabled=true 等相关流式读取的参数即可。设定后 Flink 把 Hudi 表当做了一个无界的 changelog 流表，无论怎样做 ETL 都是支持的， Flink 会自身存储状态信息，整个 ETL 的链路是流式的。

2.6 OLAP 引擎查询 Hudi 表

图中标号6, EMR Hive/Presto/Trino 都可以查询 Hudi 表，但需要注意的是不同引擎对于查询的支持是不同的,参见官网，这些引擎对于 Hudi 表只能查询，不能写入。关于 Schema 的自动变更，首先 Hudi 自身是支持 Schema Evolution,我们想要做到源端 Schema 变更自动同步到 Hudi 表，通过上文的描述，可以知道如果使用 Spark 引擎，可以通过 DataFrame API 操作数据，通过 from_json 动态生成 DataFrame，因此可以较为方便的实现自动添加列。如果使用 Flink 引擎上文已经说明想要自动实现 Schema 的变更，通过 HoodieFlinkStreamer 以DataStream API 的方式实现 Hudi 写入的同时融入 Schema 变更的逻辑。

三、EMR CDC 整库同步 Demo

接下的 Demo 操作中会选择 RDS MySQL 作为数据源，Flink CDC DataStream API 同步库中的所有表到 Kafka，使用 Spark 引擎消费 Kafka 中 binlog 数据实现多表写入 ODS 层 Hudi，使用 Flink 引擎以 streaming read 的模式做 DWD 和 DWS 层的 Hudi 表构建。

3.1 环境信息

EMR 6.6.0 
Hudi 0.10.0 
Spark 3.2.0 
Flink 1.14.2  
Presto 0.267
MySQL 5.7.34

3.2 创建源表

在 MySQL 中创建 test_db 库及 user,product,user_order 三张表，插入样例数据，后续 CDC 先加载表中已有的数据，之后源添加新数据并修改表结构添加新字段，验证 Schema 变更自动同步到 Hudi 表。

-- create databases
create database if not exists test_db default character set utf8mb4 collate utf8mb4_general_ci;
use test_db;

-- create  user table
drop table if exists user;
create table if not exists user
(
    id           int auto_increment primary key,
    name         varchar(155)                        null,
    device_model varchar(155)                        null,
    email        varchar(50)                         null,
    phone        varchar(50)                         null,
    create_time  timestamp default CURRENT_TIMESTAMP not null,
    modify_time  timestamp default CURRENT_TIMESTAMP null on update CURRENT_TIMESTAMP
)charset = utf8mb4;

-- insert data
insert into user(name,device_model,email,phone) values
('customer-01','dm-01','[email protected]','188776xxxxx'),
('customer-02','dm-02','[email protected]','166776xxxxx');

-- create product table
drop table if exists product;
create table if not exists product
(
    pid          int not null primary key,
    pname        varchar(155)                        null,
    pprice       decimal(10,2)                           ,
    create_time  timestamp default CURRENT_TIMESTAMP not null,
    modify_time  timestamp default CURRENT_TIMESTAMP null on update CURRENT_TIMESTAMP
)charset = utf8mb4;

-- insert data
insert into product(pid,pname,pprice) values
('1','prodcut-001',125.12),
('2','prodcut-002',225.31);

-- create order table
drop table if exists user_order;
create table if not exists user_order
(
    id           int auto_increment primary key,
    oid          varchar(155)                        not null,
    uid          int                                         ,
    pid          int                                         ,
    onum         int                                         ,
    create_time  timestamp default CURRENT_TIMESTAMP not null,
    modify_time  timestamp default CURRENT_TIMESTAMP null on update CURRENT_TIMESTAMP
)charset = utf8mb4;

-- insert data
insert into user_order(oid,uid,pid,onum) values 
('o10001',1,1,100),
('o10002',1,2,30),
('o10001',2,1,22),
('o10002',2,2,16);

-- select data
select * from user;
select * from product;
select * from user_order;

3.3 Flink CDC 发送数据到 Kafka

使用 DataStream API 编写 CDC 同步程序。样例代码 Github

# 创建topic
kafka-topics.sh --create --zookeeper ${zk}  --replication-factor 2 --partitions 8  --topic cdc_topic
# 下载代码，编译打包
mvn clean package  -Dscope.type=provided  -DskipTests
# 也可以使用已经打好的包，进入EMR主节点，执行命令
wget https://dxs9dnjebzm6y.cloudfront.net/tmp/emr-flink-cdc-1.0-SNAPSHOT.jar
# disalbe check-leaked-classloader
sudo sed -i -e '$a\classloader.check-leaked-classloader: false' /etc/flink/conf/flink-conf.yaml
# 启动flink cdc 发送数据到Kafka
sudo flink run -m yarn-cluster \
-yjm 1024 -ytm 2048 -d \
-ys 4 -p 8 \
-c  com.aws.analytics.MySQLCDC  \
/home/hadoop/emr-flink-cdc-1.0-SNAPSHOT.jar \
-b xxxxx.amazonaws.com:9092 \
-t cdc_topic_001 \
-c s3://xxxxx/flink/checkpoint/ \
-l 30 -h xxxxx.rds.amazonaws.com:3306 -u admin \
-P admin123456 \
-d test_db -T test_db.* \
-p 4 \
-e 5400-5408
# 相关的参数说明如下
MySQLCDC 1.0
Usage: MySQLCDC [options]

  -c, --checkpointDir 
                           checkpoint dir
  -l, --checkpointInterval 
                           checkpoint interval: default 60 seconds
  -b, --brokerList 
                           kafka broker list,sep comma
  -t, --sinkTopic   kafka topic
  -h, --host        mysql hostname, eg. localhost:3306
  -u, --username    mysql username
  -P, --pwd         mysql password
  -d, --dbList      cdc database list: db1,db2,..,dbn
  -T, --tbList      cdc table list: db1.*,db2.*,db3.tb*...,dbn.*
  -p, --parallel    cdc source parallel
  -s, --position    cdc start position: initial or latest,default: initial
  -e, --serverId    cdc server id
  
# 消费Kafka topic 观察数据
./kafka_2.12-2.6.2/bin/kafka-console-consumer.sh --bootstrap-server $brok --topic cdc_topic_001 --from-beginning |jq .

3.4 Spark 消费 CDC 数据整库同步

# 整库同步样例代码  https://github.com/yhyyz/emr-hudi-example/blob/main/src/main/scala/com/aws/analytics/Debezium2Hudi.scala

# 下载代码，编译打包
mvn clean package  -Dscope.type=provided  -DskipTests
# 也可以使用已经打好的包，进入EMR主节点，执行命令
wget https://dxs9dnjebzm6y.cloudfront.net/tmp/emr-hudi-example-1.0-SNAPSHOT-jar-with-dependencies.jar 

# 执行如下命令提交作业，命令中设定-s hms，hudi表同步到Glue Catalog
spark-submit  --master yarn \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--num-executors  2 \
--conf "spark.dynamicAllocation.enabled=false" \
--conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" \
--conf "spark.sql.hive.convertMetastoreParquet=false" \
--jars  /usr/lib/hudi/hudi-spark-bundle.jar,/usr/lib/spark/external/lib/spark-avro.jar \
--class com.aws.analytics.Debezium2Hudi /home/hadoop/emr-hudi-example-1.0-SNAPSHOT-jar-with-dependencies.jar \
-e prod -b xxxxx.amazonaws.com:9092 \
-t cdc_topic_001 -p emr-cdc-group-02 -s true \
-o earliest \
-i 60 -y cow -p 10 \
-c s3://xxxxx/spark-checkpoint/emr-hudi-cdc-005/ \
-g s3://xxxxx/emr-hudi-cdc-005/ \
-r jdbc:hive2://localhost:10000  \
-n hadoop -w upsert  \
-s hms \
--concurrent false \
-m "{\"tableInfo\":[{\"database\":\"test_db\",\"table\":\"user\",\"recordKey\":\"id\",\"precombineKey\":\"modify_time\",\"partitionTimeColumn\":\"create_time\",\"hudiPartitionField\":\"year_month\"},
{\"database\":\"test_db\",\"table\":\"user_order\",\"recordKey\":\"id\",\"precombineKey\":\"modify_time\",\"partitionTimeColumn\":\"create_time\",\"hudiPartitionField\":\"year_month\"},{\"database\":\"test_db\",\"table\":\"product\",\"recordKey\":\"pid\",\"precombineKey\":\"modify_time\",\"partitionTimeColumn\":\"create_time\",\"hudiPartitionField\":\"year_month\"}]}"

# 相关参数说明如下：
Debezium2Hudi 1.0
Usage: spark ss Debezium2Hudi [options]

  -e, --env         env: dev or prod
  -b, --brokerList 
                           kafka broker list,sep comma
  -t, --sourceTopic 
                           kafka topic
  -p, --consumeGroup 
                           kafka consumer group
  -s, --syncHive    whether sync hive，default:false
  -o, --startPos    kafka start pos latest or earliest,default latest
  -m, --tableInfoJson 
                           table info json str
  -i, --trigger     default 300 second,streaming trigger interval
  -c, --checkpointDir 
                           hdfs dir which used to save checkpoint
  -g, --hudiEventBasePath 
                           hudi event table hdfs base path
  -y, --tableType   hudi table type MOR or COW. default COW
  -t, --morCompact 
                           mor inline compact,default:true
  -m, --inlineMax   inline max compact,default:20
  -r, --syncJDBCUrl 
                           hive server2 jdbc, eg. jdbc:hive2://localhost:10000
  -n, --syncJDBCUsername 
                           hive server2 jdbc username, default: hive
  -p, --partitionNum 
                           repartition num,default 16
  -w, --hudiWriteOperation 
                           hudi write operation,default insert
  -u, --concurrent 
                           write multiple hudi table concurrent,default false
  -s, --syncMode    sync mode,default jdbc, glue catalog set dms
  -z, --syncMetastore 
                           hive metastore uri,default thrift://localhost:9083
                           
# 下图可以看到表已经同步到Glue Catalog ,数据已经写入到S3

-- 向MySQL的user表中添加一列，并插入一条新数据, 查询hudi表，可以看到新列和数据已经自动同步到user表，注意以下SQL在MySQL端执行
alter table user add column age int
insert into user(name,device_model,email,phone,age) values
('customer-03','dm-03','[email protected]','199776xxxxx',18);

3.5 Flink Streaming Read 实时聚合

# 注意最后一个参数，-t 是把/etc/hive/conf/hive-site.xml 加入到classpath，这样hudi执行表同步到Glue是就可以加入加载到这个配置，配置中的关键是 hive.metastore.client.factory.class = com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory，这样就可以加载用到Glue的Catalog实现. 如果EMR集群启动时就选择了Glue Metastore,该文件中/etc/hive/conf/hive-site.xml 已经配置了AWSGlueDataCatalogHiveClientFactory. 如果启动EMR没有选择Glue Metastore,还需要同步数据到Glue，需要手动加上。

# 注意替换为你的S3 Bucket
checkpoints=s3://xxxxx/flink/checkpoints/datagen/

flink-yarn-session -jm 1024 -tm 4096 -s 2  \
-D state.backend=rocksdb \
-D state.checkpoint-storage=filesystem \
-D state.checkpoints.dir=${checkpoints} \
-D execution.checkpointing.interval=5000 \
-D state.checkpoints.num-retained=5 \
-D execution.checkpointing.mode=EXACTLY_ONCE \
-D execution.checkpointing.externalized-checkpoint-retention=RETAIN_ON_CANCELLATION \
-D state.backend.incremental=true \
-D execution.checkpointing.max-concurrent-checkpoints=1 \
-D rest.flamegraph.enabled=true \
-d \
-t /etc/hive/conf/hive-site.xml 

# 启动Flink sql client
/usr/lib/flink/bin/sql-client.sh embedded -j /usr/lib/hudi/hudi-flink-bundle.jar shell
-- user表，开启streaming read, changelog.enalbe=true
set sql-client.execution.result-mode=tableau;

CREATE TABLE `user`(
    id string,
    name STRING,
    device_model STRING,
    email STRING,
    phone STRING,
    age string,
    create_time STRING,
    modify_time STRING,
    year_month STRING
)
PARTITIONED BY (`year_month`)
WITH (
  'connector' = 'hudi',
  'path' = 's3://xxxxx/emr-hudi-cdc-005/test_db/user/',
  'hoodie.datasource.write.recordkey.field' = 'id',
  'table.type' = 'COPY_ON_WRITE',
  'index.bootstrap.enabled' = 'true',
  'read.streaming.enabled' = 'true',
  'read.start-commit' = '20220607014223',
  'changelog.enabled' = 'false',
  'read.streaming.check-interval' = '1'
);

# 实时查询数据
select * from `user`;

# 在MySQL中修改user表中id=3的name为new-customer-03，注意以下SQL在MySQL端执行
update  user set name="new-customer-03" where id=3;

# 在Flink 端可以可以看到数据变更

-- Flink聚合操作Sink到Hudi表

-- batch
CREATE TABLE  user_agg(
num BIGINT,
device_model STRING
)WITH(
  'connector' = 'hudi',
  'path' = 's3://xxxxx/emr-cdc-hudi/user_agg/',
  'table.type' = 'COPY_ON_WRITE',  
  'write.precombine.field' = 'device_model',
  'write.operation' = 'upsert',
  'hoodie.datasource.write.recordkey.field' = 'device_model',
  'hive_sync.database' = 'dws',
  'hive_sync.enable' = 'true',
  'hive_sync.table' = 'user_agg',
  'hive_sync.mode' = 'HMS',
  'hive_sync.use_jdbc' = 'false',
  'hive_sync.username' = 'hadoop'
);

insert into user_agg select count(1) as num, device_model from `user` group by device_model;

# 动态参数打开，对user_agg表进行streaming读取，查看实时变化结果
set table.dynamic-table-options.enabled=true;
select *  from user_agg/*+ OPTIONS('read.streaming.enabled'='true','read.start-commit' = '20220607014223')*/ 

# 可以在MySQL源端多添加几条数据，查看数据结果，注意以下SQL在MySQL端执行
insert into user(name,device_model,email,phone,age) values ('customer-03','dm-03','[email protected]','199776xxxxx',18);

四、总结

本篇文章讲解了如何通过 EMR 实现 CDC 数据入湖及 Schema 的自动变更。通过 Flink CDC DataStream API 先将整库数据发送到 MSK，这时 CDC 在源端只有一个 binlog dump 线程，降低对源端的压力。使用 Spark Structured Streaming 动态解析数据写入到 Hudi 表来实现 Shema 的自动变更，实现单个 Job 管理多表 Sink, 多表情况下降低开发维护成本，可以并行或者串行写多张 Hudi 表，元数据同步 Glue Catalog。使用 Flink Hudi 的 Streaming Read 模式实现实时数据 ETL，满足 DWD 和 DWS 层的实时 Join 和聚合的需求。Amazon EMR 环境中原生集成 Hudi, 使用 Amazon EMR 轻松构建了整库同步的 Demo。

本篇作者

潘超

亚马逊云科技数据分析解决方案架构师。负责客户大数据解决方案的咨询与架构设计，在开源大数据方面拥有丰富的经验。工作之外喜欢爬山。

文章来源：多库多表场景下使用 Amazon EMR CDC 实时入湖最佳实践

你可能感兴趣的:(数据库,大数据,spark)

数据库管理-第316期 Oracle DB 23.8新特性一览（20250417）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理316期2025-04-17数据库管理-第316期OracleDB23.8新特性一览（20250417）1客户端完整支持稀疏向量2DBMS_HYBRID_VECTOR.GET_SQL函数3PL/SQL函数的动态统计信息4非ADB-S部署中的弹性向量内存管理5DBMS_HYBRID_VECTOR支持FILTER_BY6JSON类型定义功能增强：数据大小和数组规范7JSON到二元性迁移：提示
00600 ora 关闭oracle_Oracle断电报错ORA-00600数据库无法打开的恢复 weixin_39758229 00600 ora 关闭oracle
以下为一个ORACLE数据库因为断掉而引起ORA-00600错误的例子。造成ORA-00600[4000]错误的主要原因是因为系统掉电,或者数据库恢复不完全,导致system表空间的一些位的状态异常,导致bootstrap无法正常情况.以下是通过bbed方法,修改相关标志位,强制打开数据库的一种方法.但是由于数据库实际上已经处于非一致状态,强烈建议用户打开数据库后,通过将生产环境的数据导出后,重建
oracle数据库ora00600,Oracle数据库出现ORA-00600[4097]报错的解决方法雲绯
Oracle数据库出现ORA-00600[4097]报错的解决方法对一套几个TB的ORACLE数据库断电通过_allow_resetlogs_corruption隐藏参数强制打开数据库后，对某些表操作时(包括select,delete等)会出现ORA-00600[4097]的报错，而且后台出现大量的ORA-00600[4097]报错，报错如下：TueJul0708:59:40BEIST2013Er
Mybatis学习之简介（一） PP东数据库 Java mybatis 学习 oracle
一、MyBatis特性MyBatis是一个半自动的ORM（ObjectRelationMapping）框架。（ORM，对象关系型映射，用于在面向对象编程语言和关系型数据库之间建立映射关系）。MyBatis虽然自动化程度相对较低但是灵活性相对较高。Mybatis简化了与数据库的连接过程，因为其内部封装了JDBC的链接过程，所以无需手动建立和管理连接，这使得开发者能够专注于业务逻辑的实现。Mybati
ORA-00600: internal error code, arguments: [krse_arc_source_init.1], [4], [2] bestsun999 OracleDB oracle 数据库 linux
有套3节点的rac，数据库版本11204，15号凌晨0点3个实例同时宕机，手动启动节点二，节点三上实例，正常启动，手动启动节点一实例，告警如下:节点一SYS@orcl1>startup;ORACLEinstancestarted.TotalSystemGlobalArea1.2827E+10bytesFixedSize2265224bytesVariableSize5133832056bytesD
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
MySQL（1）哪里不会点哪里. MySQL mysql 数据库
目录数据库的简介MySQL数据库的安装和卸载MySQL数据库概念SQL语言（操作数据库）SQL的分类数据库的操作（CURD）创建数据库（重点）查看数据库（重点）删除数据库（重点）修改数据库表结构操作（CURD）创建表数据库的数据类型（重点）单表的约束（了解）删除和查看表修改表数据的操作（CRUD）（重点）插入数据（insert）MySQL插入中文数据乱码修改数据（update）删除数据（delet
数据库管理-第349期 Oracle DB 23.9新特性一览（20250717）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理349期2025-07-17数据库管理-第349期OracleDB23.9新特性一览（20250717）1JavaScript过程和函数的编译时语法检查2不再需要JAVASCRIPT上的EXECUTE权限3GROUPBYALL4使用SQL创建并测试UUID5IVF索引在线重组6JSON到二元性迁移器：使用JSONschema进行模式推理7数据库认证的多因素认证8多语言引擎支持数据库驻留连
oracle 11g drop user 失败，报错ORA-00600
有套Oracleoda一体机上，数据库版本是11204，删除用户时报错如下：SQL>dropusergs_jw3cascade;dropusergs_jw3cascade*ERRORatline1:ORA-00600:internalerrorcode,arguments:[16662],[kqldfau],[4],[0],[253890],[],[],[],[],[],[],[]使用rman备份
EXPLAIN：你的SQL性能优化透视镜哪里不会点哪里. MySQL sql 性能优化 oracle
目录一、EXPLAIN是什么？二、如何使用EXPLAIN？三、EXPLAIN输出解读（核心字段）四、EXPLAIN的实际应用场景五、实战优化案例六、使用EXPLAIN的注意事项与小贴士七、总结一、EXPLAIN是什么？简单来说，EXPLAIN是一条SQL命令（或命令前缀），你将它加在你的SELECT,INSERT,UPDATE,DELETE,REPLACE语句之前。数据库不会真正执行你的操作语句，
数据库学习笔记——14组合查询 Love零O
本课学习如何利用UNION操作符将多条SELECT语句组合成一个结果集。1组合查询多数SQL查询只包含从一个或多个表中返回数据的单条SELECT语句。但是，SQL也允许执行多个查询（多条SELECT语句），并将结果作为一个查询结果集返回。这些组合查询通常称为并（UNION）或复合查询（compoundquery）。主要有两种情况需要使用组合查询：在一个查询中从不同的表返回结构数据；对一个表执行多个
【计算机毕业设计】基于SSM+Vue的游戏攻略网站系统【源码+lw+部署文档+讲解】
目录1绪论1.1研究背景1.2目的和意义1.3论文结构安排2相关技术2.1SSM框架介绍2.2B/S结构介绍2.3Mysql数据库介绍3系统分析3.1系统可行性分析3.1.1技术可行性分析3.1.2经济可行性分析3.1.3运行可行性分析3.2系统性能分析3.2.1易用性指标3.2.2可扩展性指标3.2.3健壮性指标3.2.4安全性指标3.3系统流程分析3.3.1操作流程分析3.3.2登录流程分析3
MySQL 核心知识点梳理(5) 小刘| mysql 数据库
目录事务MySQL事务的四大特性ACID原子性持久性隔离性事务的隔离级别读未提交读已提交可重复读串行化事务的隔离级别如何实现MVCC版本链READVIEW高可用MySQL数据库的读写分离主从复制主从同步延迟怎么处理分库策略水平分库分表的策略事务MySQL事务的四大特性事务是一条或多条SQL语句组成的执行单元。四个特性分别是原子性、一致性、隔离性和持久性。原子性保证事务中的操作要么全部执行、要么全部
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
全面解析阿里巴巴 Seata：微服务架构下的分布式事务解决方案(AT模式) 要阿尔卑斯吗. 架构微服务分布式
在微服务架构盛行的今天，系统被拆解成多个独立服务，每个服务对应独立的数据库。这种“服务自治”的设计虽然提高了系统可维护性和扩展性，却带来了新的难题——分布式事务一致性问题。为了保障跨服务、跨库操作的原子性，阿里巴巴开源了一个优秀的解决方案：Seata（SimpleExtensibleAutonomousTransactionArchitecture）。本文将从背景动因、整体架构、核心原理、事务模型
Redis缓存四件套的学习(七) 冷崖 Redis redis 缓存
一、缓存四件套1.1、缓存预热1.1.1、什么是缓存预热缓存预热就是在系统启动前，将数据提前加载到缓存中，这样就可以避免在用户请求的时候，先查询数据库，然后再将数据回写到缓存中1.1.2、如何实现缓存预热什么都不做，只对数据库操作，利用redis回写机制，逐步将数据库的数据同步到缓存中。-------最好晚上部署完成之后，自己人提前做一次，让数据写回缓存，别把这个问题交给用户。通过中间件或程序自行
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
RDS Proxy提高数据库可扩展性可用性GenAI taibaili2023 AWS
亚马逊云科技-RDSProxy改善数据库可扩展性GenAI关键字:[yt,AmazonRDSProxy,DatabaseScalability,RdsProxy,ConnectionPooling,SeamlessFailover,IamAuthentication]本文字数:400,阅读完需:2分钟导读演讲者介绍了”亚马逊云科技-RDSProxy改善数据库可扩展性GenAI”。在演讲中,他阐释了
aws rds mysql 连接_使用 Amazon RDS 代理连接到 Amazon RDS MySQL 数据库实例或 Aurora MySQL 数据库集群... 仁安同学 aws rds mysql 连接
如何使用AmazonRDS代理连接到我的AmazonRDSMySQL数据库实例或AuroraMySQL数据库集群？上次更新时间：2020年9月21日如何使用AmazonRDS代理连接到运行MySQL的AmazonRelationalDatabaseService(AmazonRDS)数据库实例或AmazonAurora数据库集群？简短描述您可以使用AmazonRDS代理来管理与应用程序之间的连接。
AWS RDS MySQL是否能实现登录限制类需求 shiran小坚果 RDS aws 云计算 database mysql
问题描述：此类问题一般来说在等保中会频繁遇到：对于AWSRDSMySQL5.7和8.0的实例，能否做到如下限制和需求：1.一个连接到数据库的session，超过一段时间以后被RDSMySQL结束的功能：RDSMySQL5.7和8.0中，均可以通过更改参数组中wait_timeout和interactive_timeout参数来设置。当连接空闲并超过参数设置的时长，那么会导致RDSMySQL自动断掉
探索AWS基础服务：构建云端架构的基石
本文将深入介绍AWS的几种基础服务，包括弹性计算（EC2）、简单存储服务（S3）、关系数据库服务（RDS）等，助您构建高效、稳定的云计算架构。
Django ORM系统
1.ORM基础概念1.1什么是ORM？ORM（ObjectRelationalMapping，对象关系映射）是一种编程技术，用于在面向对象编程语言中实现不同类型系统的数据转换。在Django中，ORM充当业务逻辑层和数据库层之间的桥梁。核心映射关系：类（Class）↔数据库表（Table）类实例（Instance）↔表记录（Row）类属性（Attribute）↔表字段（Field）1.2ORM的优
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
使用 Amazon RDS Proxy 提升应用程序可用性
AmazonRDSProxy的最大优势，在于显著缩短数据库故障转移之后的应用程序恢复时间。RDSProxy能够同时支持MySQL与PostgreSQL引擎，但在本文中，我们将单纯使用MySQL测试工作负载向大家展示RDSProxy如何在故障转移之后，将AmazonAuroraMySQL客户端的恢复时间缩短达79%，并将AmazonRDSforMySQL的故障恢复时间缩短达32%。本文还将阐述RDS
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name