mysql+canal+kafka数据实时同步

业务场景

公司是做社交电商的,一些业务场景会给用户发各种类型的收益,然后用户在app上可以看到自己的各种汇总收益及收益明细。 在项目运营初期,用户数少、收益明细少,所以用户在app获取收益汇总时不会有性能相关的问题。然后随着用户数量的增加,业务的扩展,用户收益数据越来越多,用户每次访问收益汇总信息时,实时的通过sql汇总查询会遇到性能问题。

解决方案

A:离线汇总+缓存
B:汇总表+业务逻辑实时【消息队列等】写入到汇总表
C:mysql+canal+kafka实时计算

A 方案问题: 实时性不足,用户获到收益后,明细存在但却没有加到汇总信息中。而且业务中有使用可用余额支付的场景,无法完全满足用户及业务的需求。
B 方案问题:业务耦合,每个业务线都要关注数据实时问题。 业务线多了的话有可能会遗漏部分场景。
C 方案:业务解耦,业务开发时无需过度关注收益汇总问题。实时性较强,收益数据正常产生到用户看到基本在毫秒级别

mysql+canal+kafka实时计算介绍

当用户收益数据产生写入到mysql, canal监控到mysql的写操作,解析binlog日志写入到kafka。 消费者(python)消费kafka消息,根据具体的业务汇总数据到汇总表, app查看直接读取汇总表记录即可。
架构图

收益实时架构.png

zk保证canal server的高可用,同一时间只有一个canal-server真正在工作。

集群环境
默认jdk环境都已经配置OK 
192.168.0.81 (zk/kafka/canal)
192.168.0.82 (zk/kafka/canal)
192.168.0.83 (zk/kafka/kafka-consumer)
zookeeper部署&配置
集群模式部署
下载:
wget https://www.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
解压
tar -zxvf zookeeper-3.4.14.tar.gz
mv zookeeper-3.4.14 /usr/local/zk
修改配置 /usr/local/zk/conf/zoo.cfg
  tickTime=2000
  initLimit=10
  syncLimit=5
  dataLogDir=/opt/zookeeper/logs
  dataDir=/opt/zookeeper/data
  clientPort=2181
  autopurge.snapRetainCount=500
  autopurge.purgeInterval=24
  server.1= 192.168.0.81:2888:3888
  server.2= 192.168.0.82:2888:3888
  server.3= 192.168.0.83:2888:3888 

在目录 /opt/zookeeper/data下执行
192.168.0.81上 echo "1" >> myid
192.168.0.82上 echo "2" >> myid
192.168.0.83上 echo "3" >> myid

分别在三台机器上启动验证zk
cd /usr/local/zk/bin
1、启动
./zkServer.sh start
2、停止
./zkServer.sh stop
3、查看状态
./zkServer.sh status
4、重启
./zkServer.sh restart

kafka部署&配置
下载相应的版本解压到/usr/local/kafka目录: 
配置修改配置文件 /usr/local/kafka/config/server.properties
主要配置项
192.168.0.81上
 broker.id=1
 advertised.listeners=PLAINTEXT://192.168.0.81:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.82上
 broker.id=2
 advertised.listeners=PLAINTEXT://192.168.0.82:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.83上
 broker.id=3
 advertised.listeners=PLAINTEXT://192.168.0.83:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
启动:
 cd /usr/local/kafka/bin; ./kafka-server-start.sh -daemon config/server.properties &

kafka相关的操作请参考其他文章
canal部署&配置

下载 (https://github.com/alibaba/canal/releases)

11111111.png

部署安装,只需要服务端的包
tar zxvf canal.deployer-1.1.3-SNAPSHOT.tar.gz  -C /opt/canal
配置/usr/local/canal/conf/canal.properties
  主要配置项:
  canal.id = 1 (192.168.0.81上是1, 192.168.0.82上是2,canal的HA实现)
  canal.zkServers =192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
  canal.serverMode = kafka
  canal.destinations = test #canal.properties同级目录下 test目录中配置具体需要同步表格。 根据具体情况修改
  canal.mq.servers = 192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
配置/usr/local/canal/conf/test/instance.properties
  canal.instance.master.address=192.168.0.30:3306
  canal.instance.dbUsername=canal
  canal.instance.dbPassword=canal
  canal.instance.connectionCharset = UTF-8
  canal.instance.defaultDatabaseName = test #需要同步的数据库
  canal.instance.filter.regex=test\\.commission
  canal.mq.topic=commission
  canal.mq.partitionsNum=3
  canal.mq.partitionHash=commission:id
启动
  cd /usr/local/canal/bin
  sh ./start.sh

你可能感兴趣的:(mysql+canal+kafka数据实时同步)