大数据点灯人

FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云

一、背景

FlinkCDC是基于Flink开发的变化数据获取组件（Change data capture），目前支持mysql、PostgreSQL、mongoDB、TiDB、Oracle等数据库的同步。

Hudi是一个流式数据湖平台，使用Hudi可以直接打通数据库与数据仓库，Hudi可以连通Hadoop、hive，支持对数据record粒度的增删改查。Hudi支持同步数据入库，提供了事务保证、索引优化，是打造实时数仓、实时湖仓一体的新一代技术。

本文尝试使用FlinkCDC同步Mysql数据，通过Hudi实时同步数据到Hadoop/Hive，为下游用户提供实时数据查询。

二、测试版本说明

flink：1.13.5

hadoop：3.1.4

hive: 3.1.2

hudi: release-0.10.1

mysql: 5.7.29

java: 1.8.0_181

scala:2.11

spark: 3.1.2

三、系统环境变量

export JAVA_HOME=/data/software/jre1.8.0_91
export HADOOP_HOME=/data/software/hadoop
export HADOOP_CONF_DIR=/data/software/hadoop/conf
export YARN_CONF_DIR=/data/software/hadoop/conf

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`

四、Hudi源码编译

4.1 源码下载

git clone https://github.com/apache/hudi.git

4.2 版本适配

0.9.0（git分支：release-0.9.0）适配 flink 1.12.x
0.10.0（git分支：release-0.10.0）适配 flink 1.13.x（建议直接用master分支进行编译，目前master已经到0.11.0，0.10中有些bug在master才解决）

4.3 文件修改

修改hudi/pom.xml,在properties修改hadoop、hive版权为自己的版本

3.1.4
3.1.2

##同时编译对应的hudi-spark-hundle时注意修改对应的spark版本，以免后续与spark整合时踩坑
${spark3.version}
2.4.4
3.1.2

修改hudi/packaging/hudi-flink-bundle/pom.xml, 在profiles中将flink-bundle-shade-hive3的hive.version修改为自己的版本。如果是hive1.x则修改flink-bundle-shade-hive1，hive2.x则修改flink-bundle-shade-hive2。

4.4 执行编译

hudi> mvn clean install -DskipTests -D rat.skip=true -P flink-bundle-shade-hive3

如果不修改pom可以在mvn中增加编译属性

hudi> mvn clean install -DskipTests -D rat.skip=true -D scala-2.11 -D hadoop.version=3.1.4 -D hive.version=3.1.2 -P flink-bundle-shade-hive3 -P spark3.1.x

首次编译用时1小时左右，编译成功后再次编译用时在15分钟左右。

说明：编译时增加-Pspark2，-Pspark3.1.x，-Pspark3对编译对应的hudi-spark-bundle版本。

4.5 编译异常

编译时module：hudi-integ-test分经常出错，找不到依赖或找不到符号。这时分导致整个项目编译失败。

[WARNING] warning: While parsing annotations in C:\Users\zhang\.m2\repository\org\apache\spark\spark-core_2.11\2.4.4\spark-core_2.11-2.4.4.jar(org/apache/spark/rdd/RDDOperationScope.class), could not find NON_NULL in enum .
[INFO] This is likely due to an implementation restriction: an annotation argument cannot refer to a member of the annotated class (SI-7014).
[ERROR] D:\IdeaProject\hudi\hudi-integ-test\src\main\scala\org\apache\hudi\integ\testsuite\utils\SparkSqlUtils.scala:518: error: Symbol 'term com.fasterxml.jackson.annotation' is missing from the classpath.
[ERROR] This symbol is required by ' '.
[ERROR] Make sure that term annotation is in your classpath and check for conflicting dependencies with `-Ylog-classpath`.
[ERROR] A full rebuild may help if 'RDDOperationScope.class' was compiled against an incompatible version of com.fasterxml.jackson.
[ERROR]       .map(record => {
[ERROR]                   ^
[WARNING] one warning found
[ERROR] one error found

由于hudi-integ-test是专项的测试模块，不用于项目实践，可以直接跳过这个模块的编译。修改hudi/pom.xml，将modules里的测试模块注释掉。

  
    hudi-common
    hudi-cli
    hudi-client
    hudi-aws
    hudi-hadoop-mr
    hudi-spark-datasource
    hudi-timeline-service
    hudi-utilities
    hudi-sync
    packaging/hudi-hadoop-mr-bundle
    packaging/hudi-hive-sync-bundle
    packaging/hudi-spark-bundle
    packaging/hudi-presto-bundle
    packaging/hudi-utilities-bundle
    packaging/hudi-timeline-server-bundle
    packaging/hudi-trino-bundle
    docker/hoodie/hadoop


    hudi-examples
    hudi-flink
    hudi-kafka-connect
    packaging/hudi-flink-bundle
    packaging/hudi-kafka-connect-bundle

再次编译后项目编译成功。

备注：

1、编译时遇到RAT异常时，可以在编译参数中增加-D rat.skip=true来跳过RAT检验。

[ERROR] Failed to execute goal org.apache.rat:apache-rat-plugin:0.12:check (default) on project hudi-examples: Too many files with unapproved license: 4
 See RAT report in: D:\Workspace\Apache\apache-hudi\hudi-examples\target\rat.txt ->

mvn clean install -DskipTests -D rat.skip=true

4.6 编译结果

主要使用两个文件：

1、hudi-flink-bundle_2.11-0.10.0.jar，用于flink读写hudi数据，文件位置：hudi/packaging/hudi-flink-bundle/target/hudi-flink-bundle_2.11-0.10.0.jar。

2、hudi-hadoop-mr-bundle-0.10.0.jar，用于hive读取hudi数据，文件位置：hudi/packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.10.0.jar

五、FlinkCDC编译

5.1 源码下载与编译

git clone https://github.com/ververica/flink-cdc-connectors.git 
flink-cdc-connectors> mvn clean install -DskipTests

5.2 编译结果

获取mysql cdc相关的文件：

flink-format-changelog-json/target/flink-format-changelog-json-2.2-SNAPSHOT.jar

flink-sql-connector-mysql-cdc/target/flink-sql-connector-mysql-cdc-2.2-SNAPSHOT.jar

六、Flink配置

修改FLINK_HOME/conf下的配置文件

6.1 flink-conf.yaml配置

taskmanager.numberOfTaskSlots: 4
#状态管理
state.backend: rocksdb
state.backend.incremental: true
state.checkpoints.dir: hdfs://cluster_namespace/tmp/flink/checkpoints
#类加载
classloader.check-leaked-classloader: false
classloader.resolve-order: parent-first
#on yarn配置, cluster_namespace为hdfs命名空间
rest.address: cluster_namespace  
jobmanager.rpc.address: cluster_namespace
jobmanager.archive.fs.dir: hdfs://cluster_namespace/tmp/flink/completed-jobs/
historyserver.archive.fs.dir: hdfs://cluster_namespace/tmp/flink/completed-jobs/

6.2 sql-client-defaults.yaml配置

execution:
    planner: blink
    type: streaming

6.3 FLINK_HOME/lib下添加依赖

# flinkcdc编译文件
flink-format-changelog-json-2.2-SNAPSHOT.jar
flink-sql-connector-mysql-cdc-2.2-SNAPSHOT.jar

# flinkcdc依赖
flink-sql-connector-kafka_2.11-1.13.5.jar

#HADOOP_HOME/lib下拷贝
hadoop-mapreduce-client-common-3.1.1.3.1.4.0-315.jar
hadoop-mapreduce-client-core-3.1.1.3.1.4.0-315.jar
hadoop-mapreduce-client-jobclient-3.1.1.3.1.4.0-315.jar

# hudi编译文件
hudi-flink-bundle_2.11-0.10.0.jar

七、启动flink yarn session服务

7.1 启动命令

flink-1.13.5$ ./bin/yarn-session.sh -s 4 -jm 1024 -tm 2048 -nm flink-hudi -d

7.2 启动异常1：guava包异常，报NoSuchMethodError

异常提示：java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument

 The program finished with the following exception:

org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.reflect.InvocationTargetException
	at org.apache.hadoop.yarn.factories.impl.pb.RpcClientFactoryPBImpl.getClient(RpcClientFactoryPBImpl.java:81)
	at org.apache.hadoop.yarn.ipc.HadoopYarnProtoRPC.getProxy(HadoopYarnProtoRPC.java:48)
	at org.apache.hadoop.yarn.client.RMProxy$1.run(RMProxy.java:151)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:360)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1710)
	at org.apache.hadoop.yarn.client.RMProxy.getProxy(RMProxy.java:147)
	at org.apache.hadoop.yarn.client.RMProxy.newProxyInstance(RMProxy.java:134)
	at org.apache.hadoop.yarn.client.RMProxy.createRMProxy(RMProxy.java:102)
	at org.apache.hadoop.yarn.client.ClientRMProxy.createRMProxy(ClientRMProxy.java:72)
	at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceStart(YarnClientImpl.java:216)
	at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
	at org.apache.flink.yarn.YarnClusterClientFactory.getClusterDescriptor(YarnClusterClientFactory.java:83)
	at org.apache.flink.yarn.YarnClusterClientFactory.createClusterDescriptor(YarnClusterClientFactory.java:61)
	at org.apache.flink.yarn.YarnClusterClientFactory.createClusterDescriptor(YarnClusterClientFactory.java:43)
	at org.apache.flink.yarn.cli.FlinkYarnSessionCli.run(FlinkYarnSessionCli.java:582)
	at org.apache.flink.yarn.cli.FlinkYarnSessionCli.lambda$main$4(FlinkYarnSessionCli.java:860)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
	at org.apache.flink.runtime.security.contexts.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41)
	at org.apache.flink.yarn.cli.FlinkYarnSessionCli.main(FlinkYarnSessionCli.java:860)
Caused by: java.lang.reflect.InvocationTargetException
	at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
	at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
	at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
	at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
	at org.apache.hadoop.yarn.factories.impl.pb.RpcClientFactoryPBImpl.getClient(RpcClientFactoryPBImpl.java:78)
	... 21 more
Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V
	at org.apache.hadoop.conf.Configuration.set(Configuration.java:1358)
	at org.apache.hadoop.conf.Configuration.set(Configuration.java:1339)
	at org.apache.hadoop.conf.Configuration.setClass(Configuration.java:2672)
	at org.apache.hadoop.ipc.RPC.setProtocolEngine(RPC.java:205)
	at org.apache.hadoop.yarn.api.impl.pb.client.ApplicationClientProtocolPBClientImpl.(ApplicationClientProtocolPBClientImpl.java:197)
	... 26 more

异常分析：Preconditions是guava下的工具类，hudi的源码依赖了不同的项目，这些项目使用了不同的guava版本，所报错误是由于运行时guava版本过旧，没有相应的方法。

（hudi的guava依赖）

异常解决：将HADOOM_HOME/lib下的guava版本拷贝到FLINK_HOME/lib下。我这里的hadoop guava版本是guava-28.0-jre.jar。

7.3 Flink on yarn session启动成功

重新执行命令，flink on yarn session启动成功，命令行日志中可以看到对应的yarn applicationId。

Yarn web ui:

点击Yarn web UI下的
ApplicationMaster进入Flink session集群，后续在这里跟踪flinkcdc作业状态。

7.4 启动Flink sql client

### -j指定额外的依赖包，可以指定多个依赖包，-j jar1 -j jar2
flink-1.13.5$ ./bin/sql-client.sh -s yarn-session -j lib/hudi-flink-bundle_2.11-0.10.0.jar shell

八、Mysql环境准备

8.1 安装Mysql

sudo apt install mysql-server -y

8.2 配置Mysql文件 /etc/mysql/my.cnf，开启binlog

!includedir /etc/mysql/conf.d/
!includedir /etc/mysql/mysql.conf.d/

[mysqld]
bind-address = 0.0.0.0
server_id = 1
log-bin = /var/lib/mysql/mysql-bin
#binlog-do-db = *
log-slave-updates
sync_binlog = 1
auto_increment_offset = 1
auto_increment_increment = 1
log_bin_trust_function_creators = 1 
gtid_mode = on
enforce_gtid_consistency = on

8.3 重启Mysql并进行账号配置

## 重启Mysql
service mysql restart

## 连接mysql
mysql -uroot -pyourpassword

## 授权
grant select,replication client,replication slave on *.* to 'user_test'@'%' identified by 'user_test_password';
flush privileges;

8.4 创建测试库、测试表并准备数据

mysql> create database flink_cdc;

mysql> CREATE TABLE `test_a` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `data` varchar(10) DEFAULT NULL,
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=UTF8;

mysql> insert into test_a(data) values('d1');


mysql> insert into test_a(data) values('d1');
Query OK, 1 row affected (0.04 sec)

mysql> select * from test_a;
+----+------+---------------------+
| id | data | create_time         |
+----+------+---------------------+
|  1 | d1   | 2022-02-10 10:08:48 |
|  2 | d1   | 2022-02-10 10:08:49 |
|  3 | d1   | 2022-02-10 10:08:50 |
|  4 | d1   | 2022-02-10 10:08:51 |
|  5 | d1   | 2022-02-10 10:08:52 |
+----+------+---------------------+
5 rows in set (0.00 sec)

九、FlinkCDC sink Hudi测试

9.1、FlinkCDC Sql Table DDL:

Flink SQL> create table mysql_test_a(
id bigint primary key not enforced,
data String,
create_time Timestamp(3)
) with (
'connector'='mysql-cdc',
'hostname'='your-mysql-host',
'port'='3306',
'server-id'='5600-5604',
'username'='user_test',
'password'='user_test_password',
'server-time-zone'='Asia/Shanghai',
'debezium.snapshot.mode'='initial',
'database-name'='flink_cdc',
'table-name'='test_a'
)

查看建表状态：

FlinkCDC mysql connector相关配置说明请参考官网文档：Mysql CDC Connector

注意：Hostname，username，password等信息根据自己的实际情况填写。

9.2 FlinkCDC Sql Table查询验证

Flink SQL> select * from mysql_test_a;

这时Flink yarn session 集群中会启动一个作业来读取数据。

数据直接返回shell窗口：

读取结果与Mysql里的一致。在Mysql里执行一条更新：

mysql> update test_a set data='d5' where id=5;

观察到FlinkSql中，id=5的数据实时刷新了。

9.3 Hudi Sink Table DDL

create table hudi_test_a(
id bigint,
data String,
create_time Timestamp(3),
PRIMARY KEY (`id`) NOT ENFORCED
)
with(
'connector'='hudi',
'path'='hdfs://cluster-namespace/tmp/flink/cdcdata/test_a',
'hoodie.datasource.write.recordkey.field'='id',
'hoodie.parquet.max.file.size'='268435456',
'write.precombine.field'='create_time',
'write.tasks'='1',
'write.bucket_assign.tasks'='1',
'write.task.max.size'='1024',
'write.rate.limit'='30000',
'table.type'='MERGE_ON_READ',
'compaction.tasks'='1',
'compaction.async.enabled'='true',
'compaction.delta_commits'='1',
'compaction.max_memory'='500',
'changelog.enabled'='true',
'read.streaming.enabled'='true',
'read.streaming.check.interval'='3',
'hive_sync.enable'='true',
'hive_sync.mode'='hms',
'hive_sync.metastore.uris'='thrift://hive-metastore-host:9083',
'hive_sync.db'='test',
'hive_sync.table'='test_a',
'hive_sync.username'='flinkcdc',
'hive_sync.support_timestamp'='true'
)

查看建表状态：

DDL是关键定义说明：

1、table_type是Hudi的表文件类型，定义了Hudi文件格式与索引组织方式。支持COPY_ON_WRITE 和MERGE_ON_READ，默认COPY_ON_WRITE 。

COPY_ON_WRITE：数据保存在列式文件中，如parquet。更新时可以定义数据版本或直接重写对应的parquet文件。支持快照读取和增量读取。
MERGE_ON_READ：数据保存在列式文件（如parquet) + 行记录级文件（如avro）中。数据更新时，会先将数据写到增量文件，然后会定时同步或异步合并成新的列式文件。支持快照读取和增量读取与读查询优化。

两种表类型的特点差异比较如下：

项目	COPY_ON_WRITE	MERGE_ON_READ
写延时	高	低
读延时	低	高
数据更新(update)成本（IO）	高（重写整个parquet文件）	低（追加到增量日志）
Parquet文件大小	小（高update(I/O成本）	大（低update(I/O成本)
写扩展性	高	低（取决于文件合并策略）

更多的Hudi表类型说明参见官方文档-table_types

2、path为落地到hdfs的目录路径。

3、hoodie.datasource.write.recordkey.field为表去重主键，hudi根据这个配置创建数据索引，实现数据去重和增删改。主键相同时，选取write.precombine.field中对应字段的最大值的记录。

4、write.bucket_assign.tasks，write.tasks，compaction.tasks，设置3个子任务的并行度。

5、hive_sync*相关配置项定义hive元数据的同步方式。这里定义的是hms(hive metastore）同步，hudi会根据配置自动创建相应的hive表。

补充说明：Hudi详细配置说明参照Hudi官方文档：Hudi FlinkSQL配置

9.4 从MysqlCdc表同步数据到Hudi表

Flink SQL> set execution.checkpointing.interval=30sec;
Flink SQL> insert into hudi_test_a select * from mysql_test_a;

要设置execution.checkpointing.interval开启checkpoint，只有checkpoint开启时才会commit数据到hdfs，这时数据才可见。测试时可以设置较少的时间间隔以便于数据观察，线上设置应该根据实际情况设定，设置的间隔不宜过小。

命令执行后会显示成功提交了一个作业：

在Flink web ui上可以看到对应的作业信息：

9.5 在FlinkSql上验证Hudi表同步状态

Flink SQL> select * from hudi_test_a;

查询结果：

在Mysql中更新一条记录：

mysql> update test_a set data='d4' where id=4;

Hudi在一次Checkpoint完成后成功同步数据：

在Mysql中删除一条记录：

mysql> delete from test_a where id=2;

Hudi同样实现了数据删除：

9.6 Hive上验证Hudi表同步

9.6.1 Hudi-Hdfs同步目录与文件说明

通过hadoop web ui查看数据同步目录：

可以看到有四种文件/目录：

.*log*文件记录增量数据。

*.parquet为生成的parquet镜像文件。

.hoodie_partition_metadata 记录当前同步到的分区元数据。查看文件内容如下。

.hoodie目录是Hudi作业的工作目录。进入目录查看相应文件：

文件命名规则为：instance_time.action.action_state。

instance_time为一个instance触发时为时间戳，通过时间戳可以区分文件发生的先后。

action为instance的行为类型，主要有commit,clean,delta_commit,compaction,rollback,savepoint。

action_state指action的状态，主要有requested（调度发起，但未初始化）,inflight（执行中）,completed（已完成）。

更多的概念说明参见官方文档-timeline

9.6.2 Hudi生成的hive表说明

在hive中进行test库，show table后可以看到Hudi自动建了两张hive外部表：test_a_ro,test_a_rt。

Merge on read表会创建两张表，rt表支持快照+增量查询(近实时)，ro支持读优化查询（ReadOptimized）。

show create table查看两张表的DDL：

hive > show create table test_a_ro;

+----------------------------------------------------+
|                   createtab_stmt                   |
+----------------------------------------------------+
| CREATE EXTERNAL TABLE `test_a_ro`(                 |
|   `_hoodie_commit_time` string COMMENT '',         |
|   `_hoodie_commit_seqno` string COMMENT '',        |
|   `_hoodie_record_key` string COMMENT '',          |
|   `_hoodie_partition_path` string COMMENT '',      |
|   `_hoodie_file_name` string COMMENT '',           |
|   `_hoodie_operation` string COMMENT '',           |
|   `id` bigint COMMENT '',                          |
|   `data` string COMMENT '',                        |
|   `create_time` bigint COMMENT '')                 |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'  |
| WITH SERDEPROPERTIES (                             |
|   'hoodie.query.as.ro.table'='true',               |
|   'path'='hdfs://cluster-namespace/tmp/flink/cdcdata/test_a')  |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hudi.hadoop.HoodieParquetInputFormat'  |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' |
| LOCATION                                           |
|   'hdfs://cluster-namespace/tmp/flink/cdcdata/test_a' |
| TBLPROPERTIES (                                    |
|   'last_commit_time_sync'='20220210140950333',     |
|   'spark.sql.sources.provider'='hudi',             |
|   'spark.sql.sources.schema.numParts'='1',         |
|   'spark.sql.sources.schema.part.0'='{"type":"struct","fields":[{"name":"_hoodie_commit_time","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_commit_seqno","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_record_key","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_partition_path","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_file_name","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_operation","type":"string","nullable":true,"metadata":{}},{"name":"id","type":"long","nullable":false,"metadata":{}},{"name":"data","type":"string","nullable":true,"metadata":{}},{"name":"create_time","type":"timestamp","nullable":true,"metadata":{}}]}',  |
|   'transient_lastDdlTime'='1644473394')            |
+----------------------------------------------------+


hive > show create table test_a_rt;


+----------------------------------------------------+
|                   createtab_stmt                   |
+----------------------------------------------------+
| CREATE EXTERNAL TABLE `test_a_rt`(                 |
|   `_hoodie_commit_time` string COMMENT '',         |
|   `_hoodie_commit_seqno` string COMMENT '',        |
|   `_hoodie_record_key` string COMMENT '',          |
|   `_hoodie_partition_path` string COMMENT '',      |
|   `_hoodie_file_name` string COMMENT '',           |
|   `_hoodie_operation` string COMMENT '',           |
|   `id` bigint COMMENT '',                          |
|   `data` string COMMENT '',                        |
|   `create_time` bigint COMMENT '')                 |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'  |
| WITH SERDEPROPERTIES (                             |
|   'hoodie.query.as.ro.table'='false',              |
|   'path'='hdfs://cluster-namespace/tmp/flink/cdcdata/test_a')  |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat'  |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' |
| LOCATION                                           |
|   'hdfs://cluster-namespace/tmp/flink/cdcdata/test_a' |
| TBLPROPERTIES (                                    |
|   'last_commit_time_sync'='20220210140950333',     |
|   'spark.sql.sources.provider'='hudi',             |
|   'spark.sql.sources.schema.numParts'='1',         |
|   'spark.sql.sources.schema.part.0'='{"type":"struct","fields":[{"name":"_hoodie_commit_time","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_commit_seqno","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_record_key","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_partition_path","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_file_name","type":"string","nullable":true,"metadata":{}},{"name":"_hoodie_operation","type":"string","nullable":true,"metadata":{}},{"name":"id","type":"long","nullable":false,"metadata":{}},{"name":"data","type":"string","nullable":true,"metadata":{}},{"name":"create_time","type":"timestamp","nullable":true,"metadata":{}}]}',  |
|   'transient_lastDdlTime'='1644473394')            |
+----------------------------------------------------+

可以看到Hudi在两张表中都加入了6个Hudi的元数据字段，字段名以'_hoodie_'为前缀。

rt和ro的读写类是不一样的。

	INPUT FORMAT	OUT FORMAT
rt	org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat	org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
ro	org.apache.hudi.hadoop.HoodieParquetInputFormat	org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

rt表（HoodieParquetRealtimeInputFormat）读取parquet文件与增量log文件，读取时将两种数据进行合并，产生近实时的数据镜像。rt表实时性好，但读IO效率较差。

ro表（HoodieParquetInputFormat）查询时只读取parquet文件。新数据只有经过compact合并生成新的parquet文件时才可以读到，数据存在一定的延时，但读IO效率更高，因为只读取parquet文件，不需要读增量log进行数据合并。

9.7 Hive表查询验证前准备

使用Hive查询hudi表前需要将之前编译得到的hudi-hadoop-mr-bundle-0.10.0.jar加入到hive的运行依赖中。直接查询的话会报错，找不到INPUTFORMAT对应的类：

hive > select * from test_a_ro;
Error: Error while compiling statement: FAILED: RuntimeException java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat (state=42000,code=40000)

hive > select * from test_a_rt;
Error: Error while compiling statement: FAILED: RuntimeException java.lang.ClassNotFoundException: org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat (state=42000,code=40000)

配置过程如下：

a.将hudi-hadoop-mr-bundle-0.10.0.jar拷贝到hive server所在的HIVE_HOME/auxlib下。如果HIVE_HOME下没有auxlib目录，则新建目录。

b. 重启hiveserver2

nohup hive --service hiveserver2 &

9.8 Hudi hive表查询验证

hive> set hive.resultset.use.unique.column.names=false;
hive> select * from test_a_ro;

hive>  select * from test_a_rt;

rt表与ro表查询正常。

9.9 Hudi hive表增改删验证

9.9.1 在Mysql上增改删数据

mysql> select * from test_a;
+----+------+---------------------+
| id | data | create_time         |
+----+------+---------------------+
|  1 | d1   | 2022-02-10 10:08:48 |
|  3 | d1   | 2022-02-10 10:08:50 |
|  4 | d4   | 2022-02-10 12:51:06 |
|  5 | d5   | 2022-02-10 10:58:38 |
+----+------+---------------------+
4 rows in set (0.00 sec)

mysql> insert into test_a(data) values('d6');
Query OK, 1 row affected (0.03 sec)

mysql> update test_a set data='d3' where id=3;
Query OK, 1 row affected (0.04 sec)
Rows matched: 1  Changed: 1  Warnings: 0

mysql> delete from test_a where id=1;
Query OK, 1 row affected (0.06 sec)

mysql> select * from test_a;
+----+------+---------------------+
| id | data | create_time         |
+----+------+---------------------+
|  3 | d3   | 2022-02-10 16:33:43 |
|  4 | d4   | 2022-02-10 12:51:06 |
|  5 | d5   | 2022-02-10 10:58:38 |
|  6 | d6   | 2022-02-10 16:33:21 |
+----+------+---------------------+
4 rows in set (0.00 sec)

9.9.2 Hudi rt表查询验证MysqlCdc增删改

再次查询rt表，mysql表的数据马上同步到rt里，可以根据_hoodie_commit_time确认完成同步的时间，_hoodie_commit_seqno标记同步的次序。_hoodie_operation标记增（I）、改(U)、删(D)。这时还可以查询到已删除的记录。

已删除的记录在parquet文件被compact重写之后正式删除。默认5次commit触发一次compact。compact后数据为最新的镜像，所有记录对应的operate都为I。

9.9.3 Hudi ro表查询验证MysqlCdc增删改

查询ro表，ro表的数据同步要明显慢于rt表，删除记录不会马上直接反映在ro表中。insert、update的数据反映到ro表时，delete依然为早期的状态。

delete的数据只有在compact后才会反映到ro表中。

十、总结

至此，我们展示了FlinkCdc-Hudi-Hive落地的全过程。下一步会探索更多的应用场景，并记录遇到的坑点。敬请期待！

你可能感兴趣的:(Hudi,Flink,flink,apache,mysql,kafka)

MySQL InnoDB 引擎中的聚簇索引和非聚簇索引有什么区别？ Chen-Edward 数据库 mysql android 数据库
MySQLInnoDB引擎中的聚簇索引和非聚簇索引有什么区别？主要解答详细解答1.**聚簇索引（ClusteredIndex）**2.**非聚簇索引（Non-ClusteredIndex/SecondaryIndex）**3.**对比总结**4.**流程图（查询过程对比）**知识拓展与延伸1.**如何选择主键和索引**2.**Java后端开发中的应用**3.**常见误区**主要解答在MySQL的I
mysql数据一致性
前言美团酒店直连项目自2013年末开始，通过业务上的不断完善和技术上的不断改进，至今已经接入200多家供应商，其中在线酒店3万以上，在线SPU30万以上。经过两年的成长，美团酒店直连平台终于在2015年末发展为国内最大的酒店直连业务平台，其接入的业务类型也从最初的经济连锁，拓展到高星渠道、小连锁集团、非标准住宿等，获得了业界一致好评。随着美团点评的日益壮大，客户的需求和系统体量的不断增加，直连平台
使用 Kafka 优化物流系统的实践与思考 nlog3n Java学习 kafka 分布式
使用Kafka优化物流系统的实践与思考在现代物流系统中，订单处理、仓储管理、运输调度等环节复杂且实时性要求高。为了满足异步解耦、高吞吐、高可用、事件驱动和数据可靠性等需求，Kafka作为分布式消息队列和流处理平台，成为了我们的首选。本文将分享我们在物流系统中使用Kafka的设计方案、优化实践以及遇到的问题和解决方案。一、系统背景和需求物流系统涉及多个业务模块，如订单处理、仓储管理、运输调度和状态跟
Kafka 核心机制面试题--自问自答亲爱的非洲野猪 kafka 分布式
基础篇Q1:Kafka为什么能这么快？A:Kafka的高性能主要来自三大核心技术：零拷贝(Zero-Copy)：通过sendfile()系统调用，数据直接从磁盘到网卡，避免了内核态和用户态之间的多次拷贝页缓存(PageCache)：消息直接写入操作系统页缓存而非JVM内存，减少GC影响并利用OS缓存机制内存映射(mmap)：索引文件通过内存映射实现，操作内存即操作文件Q2:Kafka的存储结构是怎
kafka问题解决笔记 Leo_Hu666 kafka 笔记分布式
1.ERRORShutdownbrokerbecausealllogdirsin/tmp/kafka-logshavefailed(kafka.log.LogManager)修改：/data3/kafka_2.12-3.9.1/config/server.propertieslog.dirs=/tmp/kafka-logs-new
Kafka 核心原理篇：深入理解分布式消息系统的内核机制真实的菜 kafka 分布式 kafka linq
Kafka核心原理篇：深入理解分布式消息系统的内核机制文章目录Kafka核心原理篇：深入理解分布式消息系统的内核机制消息存储与持久化机制日志分段存储策略️**分段文件结构****索引机制详解**高效的磁盘读写与数据压缩算法**零拷贝技术（Zero-Copy）****数据压缩策略****页缓存优化**数据过期与清理策略⏰**基于时间的清理****基于大小的清理**️**日志压缩（LogCompact
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
Docker容器升级MySQL Java王小怪 docker mysql 容器
目录服务升级密码重置1、找到挂载配置文件2、重启服务3、容器交互4、修改密码5、还原配置文件前言：由于项目需要，我们使用docker-compose启动的MySQL服务，原先版本为5.7.3，在服务扫描过程中，发现此版本的MySQL存在漏洞，遂决定对MySQL版本进行升级。服务升级由于库中数据还存在不少，我们并没有把原先MySQL的容器进行删除重新搞个新的，只是升级版本可以做到无痛割接。由于我的M
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
MySQL对CPU的占用率很高怎么处理半桶水专家 mysql mysql 数据库
一、确认与定位确认整体CPU使用情况top-b-n1|head-n15观察MySQL(mysqld)进程所占的%CPU。如果是多核系统，关注总和以及单核是否满载。查看系统负载uptimeLoadAverage长期高于CPU核数，说明系统压力大。查看其它进程情况psaux--sort=-%cpu|head-n10确认是否仅MySQL占用高，或与其它进程有关。二、操作系统层面排查磁盘I/O瓶颈iost
配置MySQL主从复制（一主一从） cici15874 mysql
MySQL主从复制简介MySQL主从复制的目的是实现数据库冗余备份，将master数据库的数据定时同步到slave库中，一旦master数据库宕机，可以将Web应用数据库配置快速切换到slave数据库，确保Web应用有较高的可用性。MySQL主从同步是一个异步复制的过程，要实现复制，首先需要在master上开启bin-log日志功能，bin-log日志用于记录在master库执行的增删改更新操作的
数据中心双活架构解决方案
数据中心双活架构解决方案数据中心双活架构（Active-ActiveDataCenter）旨在实现业务高可用、负载均衡和灾难自动切换。以下是完整的解决方案，涵盖架构设计、关键技术、实施步骤及最佳实践。1.双活架构设计1.1基本架构模型同城双活（MetroActive-Active）两个数据中心距离≤100km（低延迟，通常100km（延迟较高，通常>10ms）采用异步数据复制（如Kafka+CDC
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
从开源小白到 Apache Member，我的成长之路开源小秘书云栖社区 Apache 高并发
我们走过的每一步路，都会留下印记，越坚实，越清晰。近日，Apache软件基金会（ASF）官方Blog宣布全球新增40位ApacheMember，张乎兴有幸成为其中一位。目前，全球共有771位ASFMember，中国仅13位。本文将分享作者从0基础的开源小白，一路走来的感触，希望把期间的经历分享出来，让更多的人看到，世界开源舞台的中国力量。只要有持续的付出，总会有所收获。初次参与开源2014年，我加
提名 Apache ShardingSphere Committer，说说方法
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统文章首发在公众号（龙台的技术笔记），之后同步到博客园和个人网站：xiaomage.info就在前几天，收到了ApacheS
Apache Seata ＜ 2.3.0 raft反序列化漏洞墨菲安全 Apache Seata 反序列化漏洞 CVE-2025-32897
【高危】ApacheSeata<2.3.0raft反序列化漏洞漏洞描述ApacheSeata(incubating)是一款开源的分布式事务解决方案，用于在微服务架构下提供高性能和简单易用的分布式事务服务。受影响版本中，SeataServer的Raft模块的CustomDeserializer直接通过Class.forName()加载用户可控的类名，未做安全校验，攻击者可借此利用服务端已有的恶意链实
从性能优化赛到社区Committer，走进赵宇捷在Apache Fory的成长之路
ApacheFory是一个基于JIT和零拷贝的高性能多语言序列化框架，实现了高效紧凑的序列化协议，提供极致的性能、压缩率和易用性。在多语言序列化框架技术领域取得了重大突破，推动序列化技术步入高性能易用新篇章！这一切，都源自全球开发者对开源的热忱。今天，一起走近这些用代码编织跨语言数据之网的Committer～一、自我介绍您的全名：赵宇捷当前职位/角色：后端开发工程师主要领域/方向：金融加入社区/项
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖数据库
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
SQL SELECT INTO语句 Lu鹿夫人 sql 数据库 sqlserver
SQLSELECTINTO语句通过SQL，您可以从一个表复制信息到另一个表。SELECTINTO语句从一个表复制数据，然后把数据插入到另一个新表中。SQLSELECTINTO语句注意：MYSQL数据库不支持SELECT…INTO语句，但支持INSERTINTO…SELECT。可以使用以下语句来拷贝表结构及数据：CREATETABLE新表ASSELECT*FROM旧表SQLSELECTINTO语法1
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
MySQL数据库核心技术深度解析：SQL语句最佳实践与性能优化指南有趣的灵魂465 mysql
MySQL数据库大师之路：从语法精要到高阶优化全攻略一、开篇：构建系统化的MySQL知识体系在完成《MySQL数据库技术》课程学习后，我通过300+小时的实战演练和源码研究，形成了这套覆盖MySQL5.7/8.0核心技术的知识体系。本文不仅包含标准SQL语法，更将深入InnoDB存储引擎原理、索引实现机制和事务隔离级别的底层实现，帮助开发者跨越从"会写SQL"到"精通数据库"的鸿沟。二、数据库设计
MySQL调优实战 fei飛fei飞 mysql 数据库
各位小伙伴是否在工作中遇到过类似的问题？一个简单的用户查询居然用时15s，接到优化sql语句的任务又无从下手。今天，我们简单的讲讲MySql如何调优。sqlSELECT*FROMusersWHEREage>18ORDERBYcreate_timeDESC;如上图，一个简单的查询sql为啥用时如此之久呢，我们先看这个sql可能存在的问题。1.索引缺失或不合理问题：该查询涉及两个字段条件(age>18
基于springboot+mysql+jpa+html实现商品销售信息系统五星资源 spring boot mysql java
基于springboot+mysql+jpa+html实现商品销售信息系统一、系统介绍1、系统主要功能：2.涉及技术框架：3.本项目所用环境：二、功能展示三、其它系统四、获取源码一、系统介绍1、系统主要功能：订单管理模块商品管理模块品牌管理模块分类管理模块客户管理模块供应商管理模块2.涉及技术框架：web框架：SpringBoot数据库框架：SpingDataJPA数据库：MySql项目构建工具：
Kafka消息轨迹追踪：分布式系统调试利器大数据洞察 kafka linq 分布式 ai
Kafka消息轨迹追踪：分布式系统调试利器关键词Kafka、消息轨迹追踪、分布式系统、调试、消息处理、事件溯源摘要本文聚焦于Kafka消息轨迹追踪这一分布式系统调试的关键技术。首先介绍Kafka消息轨迹追踪的概念基础，包括其在分布式系统中的背景、发展历史以及问题空间。接着阐述其理论框架，从第一性原理进行推导，并分析理论局限性和竞争范式。在架构设计方面，对系统进行分解，构建组件交互模型并可视化展示。
mysql中的mvcc理解 simpleGq MySQL mysql java 数据库
是什么：MVCC指的是在读已提交、可重复读这两种隔离级别下，执行普通的select操作时，访问记录的版本链的过程，可以使不同事务的读写操作并发执行，提高性能。MVCC=隐藏字段+undolog版本链+ReadView1.隐藏字段：对于聚簇索引来说，每条记录都有trx_id和roll_pointer两个隐藏列。trx_id：修改该记录的事务的idroll_pointer:每次记录修改的时候，旧的版本
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag