本次使用版本
kafka_2.12-2.70
Apache-Flink 1.12
Debezium 1.3
环境均为本地启动.提前下好各种应用包.
本文中涉及到的{flink-1.12.0} 均为文件放置的路径地址
前提需要开启MySQL bin_log 日志 关于如何开启请自行搜索.
- 首先启动zookeeper
执行命令:${kafka_2.12-2.7.0}% bin/zookeeper-server-start.sh config/zookeeper.propertieszookeeper.properties
在启动kafka
执行命令:${kafka_2.12-2.7.0}% bin/kafka-server-start.sh config/server.properties
- 官网下载Debezium debezium-connector-mysql-1.3.1.Final-plugin.tar 将解压的包放置
${kafka_2.12-2.7.0}/lib
以及自定义一个/Users/XXX/connect
下
修改${kafka_2.12-2.7.0} % vi config/connect-distributed.propertieskafka
将最后一项取消注释加入:
plugin.path=/Users/XXX/connect
执行:${kafka_2.12-2.7.0} % bin/connect-distributed.sh config/connect-distributed.properties
启动kafka connect
以上步骤正常后
创建一个topic连接器
指令:
${kafka_2.12-2.7.0} % bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic b2c_flink
查看kafka topic
${kafka_2.12-2.7.0} % bin/kafka-topics.sh --list --zookeeper localhost:2181
删除为记录与本次操作无关...
删除kafka topic
${kafka_2.12-2.7.0} % bin/kafka-topics.sh --delete --zookeeper localhost:2181 --topic b2c_flink
使用curl 进行测试连接器
curl -H "Accept:application/json" localhost:8083/
会有一个json返回结果
{
"version": "2.7.0",
"commit": "448719dc99a19793",
"kafka_cluster_id": "p-c8Qz4STr2C2LRzy-xB0g"
}
接着发送一个POST请求 让连接器
curl -i -X POST -H "Accept:application/json" -H "Content-Type:application/json" localhost:8083/connectors -d '{ "name": "connector_demo", "config": { "connector.class": "io.debezium.connector.mysql.MySqlConnector", "tasks.max": "1", "database.hostname": "localhost", "database.port": "3306", "database.user": "root", "database.password": "123456", "database.server.id": "184054", "database.server.name": "big_data", "database.include.list": "big_data", "database.history.kafka.bootstrap.servers": "localhost:9092", "database.history.kafka.topic": "b2c_flink","include.schema.changes": "true"} }'
JSON 内容
{
"name":"connector_demo", #连接器名称 唯一别重复
"config":{
"connector.class":"io.debezium.connector.mysql.MySqlConnector", # 使用到的类 参照官网
"tasks.max":"1",
"database.hostname":"localhost", # 数据库连接地址
"database.port":"3306", # 端口
"database.user":"root", #用户名
"database.password":"123456", # 密码
"database.server.id":"184054", # 连接器服务唯一id
"database.server.name":"big_data", # 连接器名称 后续会出现在kafka中topic内
"database.include.list":"big_data", # 包含的库列表
"database.history.kafka.bootstrap.servers":"localhost:9092",
"database.history.kafka.topic":"b2c_flink", # topic名称
"include.schema.changes":"true"
}
}
发送完curl后会收到一个json返回值
HTTP/1.1 201 Created
Date: Thu, 31 Dec 2020 04:54:13 GMT
Location: http://localhost:8083/connectors/connector_demo
Content-Type: application/json
Content-Length: 507
Server: Jetty(9.4.33.v20201020)
也可以通过
curl -H "Accept:application/json" localhost:8083/connectors/ #查看所有连接器
curl -i -X DELETE -H "Accept:application/json" localhost:8083/connectors/connector_demo
#读取连接器对应内容 connnecotrs/XXXX为json配置内容中的name
curl -i -X DELETE -H "Accept:application/json" localhost:8083/connectors/connector_demo #删除对应连接器
完成以上后均已可以通过Debezium去读取MySQL中变化数据
可以使用kafka kafka-console-consumer.sh进行消费数据
指令为:
${kafka_2.12-2.7.0} % bin/kafka-console-producer.sh --broker-list localhost:9092 --topic b2c_flink
但是读取到后发现内容太多.
这个时候在查询一次kafka内的topic会发现多出很多topic
本次本地mysql创建的库为big_data 设置的连接器名称也为big_data.
查询topic后出现
b2c_flink
big_data
big_data.big_data.save_result
big_data.big_data.test_result
列内的big_data.big_data.save_result 以及test_result为本次所需使用到的表
接着到了本次重头Flink
首先启动Flink集群(还为本地)
${flink-1.12.0} $ bin/start-cluster.sh
查看端口localhost:8081 是否能看见Dashboard 能看见即可
因为考虑到任务多..已提前修改过
vi conf/flink-conf.yaml
其中的
taskmanager.numberOfTaskSlots: 4
parallelism.default: 1
Flink所需要用到的jar包: flink-sql-connector-kafka_2.11-1.12.0.jar mysql-connector-java-5.1.30.jar flink-connector-jdbc_2.12-1.12.0.jar
以上jar包均为从官方地址下载
接着执行
${flink-1.12.0} $ bin/sql-client.sh embedded
使用到的SQL
CREATE TABLE test_result (
id BIGINT,
test_result STRING
) WITH (
'connector' = 'kafka',
'topic' = 'big_data.big_data.test_result', #因Debezium创建出的topic
'properties.bootstrap.servers' = 'localhost:9092',
'properties.group.id' = 'testGroup',
'format' = 'debezium-json', # 采用到Flink 内的转换
'debezium-json.schema-include' = 'true'
)
# 目标表 直接存入mysql中
CREATE TABLE save_result(
id BIGINT,
test_result STRING,
PRIMARY KEY (id) NOT ENFORCED #因主键问题需要设置否则会报错
) WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://localhost:3306/big_data', #本地数据库
'username' = 'root',
'password' = '123456',
'table-name' = 'save_result'
)
创建完毕连接后直接输入
SQL>insert into save_result
SQL>select * from test_result;
这时可以在Flink Dashboard看到启动了一个running 任务
在原表中insert update 以及 delete数据后查看目标表均可以发现已实时将数据添加或删除.
至此一个实时数据均已使用了
倒腾了一天的东西终于出结果了...不容易啊..期间各种报错各种找包...
后续研究如何跟Oracle连接以及实时.在进行更新