数据同步工具chunjun(flinkx)-1.12.7 使用tips

目录

本文旨在记录chunjun使用过程中的tips,并且记录与官网描述不符的地方,以减少学习成本

1、在编写json的时候推荐使用在线json编辑器:

2、类似MySQL<—>MySQL这种需要编写带jdbcUrl的任务,注意reader和writer中jdbcUrl类型不一致

 3、以kafka—>mysql举例解释字段间的映射关系

4、kafka—>mysql,当kafka输入脏数据时,mysql会写入空行

5、kafkareader,group-offsets模式读不到已提交offset的数据


本文旨在记录chunjun使用过程中的tips,并且记录与官网描述不符的地方,以减少学习成本

最简单快速上手的方法就是熟读官网文档(纯钧 (dtstack.github.io))中的连接器参数

1、在编写json的时候推荐使用在线json编辑器:

Editor | JSON Crackhttps://jsoncrack.com/editor这个工具可以检查json格式是否正确自动规范json格式,并且可以自动规范json格式,还可以生成树状图直观查看结构,避免因为json格式问题导致任务无法运行

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第1张图片

由于json格式问题引发的报错类似:Caused by: com.google.gson.stream.MalformedJsonException: Unterminated array at line 24 column 16 path $.job.content[0].reader.parameter.[1]

 检查json格式后可以避免

2、类似MySQL<—>MySQL这种需要编写带jdbcUrl的任务,注意reader和writer中jdbcUrl类型不一致

在reader中jdbcUrl为Array

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第2张图片

而writer中jdbcUrl为String

 数据同步工具chunjun(flinkx)-1.12.7 使用tips_第3张图片

这与官网文档中的描述是不一致的

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第4张图片

 如果按照官网文档中写法,会产生格式匹配错误:

Caused by: java.lang.IllegalStateException: Expected STRING but was BEGIN_ARRAY at path $.jdbcUrl

 3、以kafka—>mysql举例解释字段间的映射关系

kafka topic中有两种数据:

{"id":"1","name":"a1","A1":"0.001","A2":"0.005","A3":"100","A4":"abadc","A5":"eqerd"}
{"id":"2","name":"a2","A1":"0.001","A2":"0.005","A3":"5","A4":"abadc","A5":"eqerd"}
{"id":"3","name":"a3","A1":"0.1","A2":"0.3","A3":"20","A4":"","A5":"qerda"}
{"id":"4","name":"a4","A1":"0.00070","A2":"12.2","A3":"10","A4":null,"A5":"weaef"}
{"id":"5","name":"a5","A1":"0.1","A2":"0.3","A3":"20","A4":"adfsa","A5":"qerda"}
{"id":"6","name":"a1","A1":null,"A2":null,"A3":"100","A4":"abadc","A5":"eqerd"}
{"id":"1","name":"a1","B1":"0.1","B2":"5","B3":"GKLGU"}
{"id":"2","name":"a2","B1":"1.425","B2":"10","B3":"HJFV"}
{"id":"3","name":"a3","B1":"54.12","B2":"4325","B3":"FDGAD"}
{"id":"4","name":"a4","B1":"10.0","B2":"1","B3":null}
{"id":"5","name":"a5","B1":null,"B2":"11","B3":"SDF"}
{"id":"6","name":"a7","B1":null,"B2":null,"B3":null}

第一种包含id、name、A1、A2、A3、A4、A5字段

第二种包含id、name、B1、B2、B3字段

写入目标表字段 id、name、A1、A2、A3、A4、A5、B1、B2、B3

① 实验一:

kafkareader:name、A1、A2、A3、A4、A5、B1、B2、B3

mysqlwriter:name、A1、A2、A3、A4、A5、B1、B2、B3

结果正常写入

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第5张图片

② 实验二

kafkareader:name、A1、A2、A3、A4、A5、B1、B2、B3

mysqlwriter:name、A2、A1、A3、A5、A4、B1、B2、B3

结果表中A1、A2列互换,A4、A5列互换

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第6张图片

③ 实验三

kafkareader:name、A2、A1、A3、A4、A5、B1、B2、B3

mysqlwriter:name、A1、A2、A3、A4、A5、B1、B2、B3

结果表中A1、A2列互换

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第7张图片

④  实验四(忘截图了)

kafkareader:name、a1、a2、a3、A4、A5、b1、B2、B3

mysqlwriter:name、A1、A2、A3、A4、A5、B1、B2、B3

结果目标表中A1、A2、A3、B1列为null

⑤ 实验五(忘截图了)

kafkareader:name、A1、A2、A3、A4、A5、B1、B2、B3

mysqlwriter:name、a1、a2、A3、A4、A5、B1、B2、B3

结果运行失败,无法在mysql中找到a1、a2列

结论:

① 在任务运行至reader时,chunjun会依据kafkareader中定义的字段匹配topic中数据,且字段顺序不受kafka顺序限制,如果reader中的字段在kafka topic中没有出现,则赋予null,

② 在字段对应时按顺序赋值,当reader中为M、L、N,writer中为l、m、n时,M->l,L->m,N->n,官网文档描述不准确,因此只要了解kafka中数据与MySQL中表字段的对应关系即可快速编写json

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第8张图片

③ 在任务运行至writer时,chunjun会依据mysqlwriter中定义的字段写入mysql表,且字段顺序不受mysql顺序限制,如果writer中的字段在mysql中没有出现,则报错

④ 字段对应可以做到一对多,比如reader中A1、A1、A1,writer中A1、A2、A3,则mysql表中A1、A2、A3列都会附A1值

4、kafka—>mysql,当kafka输入脏数据时,mysql会写入空行

数据同步工具chunjun(flinkx)-1.12.7 使用tips_第9张图片

如果目标表中某列设置为not null则不论是否chunjun设置errorLimit,任务都将直接失败

注意向kafka中写入数据的合规性

5、kafkareader,group-offsets模式读不到已提交offset的数据

chunjun kafkareader中有五种mode:

  • group-offsets:     从ZK / Kafka brokers中指定的消费组已经提交的offset开始消费
  • earliest-offset:    从最早的偏移量开始(如果可能)
  • latest-offset:      从最新的偏移量开始(如果可能)
  • timestamp:         从每个分区的指定的时间戳开始
  • specific-offsets: 从每个分区的指定的特定偏移量开始

group_offsets模式在group中数据没有被消费过时,默认offset为-915623761773L,数据同步工具chunjun(flinkx)-1.12.7 使用tips_第10张图片

这时使用该模式实测会跳过原有数据直接到最新的offset,相当于latest-offset模式,查询原理发现:

chunjun这部分代码继承的是flink kafka api,当设置为group_offsets模式时如果该group的offset不存在,或者无效的话,将依据 "auto.offset.reset" 该属性来决定初始 offset。auto.offset.reset 默认为 largest。

若想消费到原有数据可以依如下办法,手动将"auto.offset.reset"设置为earliest数据同步工具chunjun(flinkx)-1.12.7 使用tips_第11张图片

auto.offset.reset的earliest参数

在各分区下有提交的offset时:从offset处开始消费

在各分区下无提交的offset时:从头开始消费

如此可以实现绝大部分场景了

你可能感兴趣的:(json,大数据,数据库,kafka)