mysql+canal+kafka数据实时同步

业务场景

公司是做社交电商的，一些业务场景会给用户发各种类型的收益，然后用户在app上可以看到自己的各种汇总收益及收益明细。在项目运营初期，用户数少、收益明细少，所以用户在app获取收益汇总时不会有性能相关的问题。然后随着用户数量的增加，业务的扩展，用户收益数据越来越多，用户每次访问收益汇总信息时，实时的通过sql汇总查询会遇到性能问题。

解决方案

A：离线汇总+缓存
B：汇总表+业务逻辑实时【消息队列等】写入到汇总表
C：mysql+canal+kafka实时计算

A 方案问题：实时性不足，用户获到收益后，明细存在但却没有加到汇总信息中。而且业务中有使用可用余额支付的场景，无法完全满足用户及业务的需求。
B 方案问题：业务耦合，每个业务线都要关注数据实时问题。业务线多了的话有可能会遗漏部分场景。
C 方案：业务解耦，业务开发时无需过度关注收益汇总问题。实时性较强，收益数据正常产生到用户看到基本在毫秒级别

mysql+canal+kafka实时计算介绍

当用户收益数据产生写入到mysql, canal监控到mysql的写操作，解析binlog日志写入到kafka。消费者（python）消费kafka消息，根据具体的业务汇总数据到汇总表， app查看直接读取汇总表记录即可。
架构图

收益实时架构.png

zk保证canal server的高可用，同一时间只有一个canal-server真正在工作。

集群环境

默认jdk环境都已经配置OK 
192.168.0.81 (zk/kafka/canal)
192.168.0.82 (zk/kafka/canal)
192.168.0.83 (zk/kafka/kafka-consumer)

zookeeper部署&配置

集群模式部署
下载：
wget https://www.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
解压
tar -zxvf zookeeper-3.4.14.tar.gz
mv zookeeper-3.4.14 /usr/local/zk
修改配置 /usr/local/zk/conf/zoo.cfg
  tickTime=2000
  initLimit=10
  syncLimit=5
  dataLogDir=/opt/zookeeper/logs
  dataDir=/opt/zookeeper/data
  clientPort=2181
  autopurge.snapRetainCount=500
  autopurge.purgeInterval=24
  server.1= 192.168.0.81:2888:3888
  server.2= 192.168.0.82:2888:3888
  server.3= 192.168.0.83:2888:3888 

在目录 /opt/zookeeper/data下执行
192.168.0.81上 echo "1" >> myid
192.168.0.82上 echo "2" >> myid
192.168.0.83上 echo "3" >> myid

分别在三台机器上启动验证zk
cd /usr/local/zk/bin
1、启动
./zkServer.sh start
2、停止
./zkServer.sh stop
3、查看状态
./zkServer.sh status
4、重启
./zkServer.sh restart

kafka部署&配置

下载相应的版本解压到/usr/local/kafka目录： 
配置修改配置文件 /usr/local/kafka/config/server.properties
主要配置项
192.168.0.81上
 broker.id=1
 advertised.listeners=PLAINTEXT://192.168.0.81:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.82上
 broker.id=2
 advertised.listeners=PLAINTEXT://192.168.0.82:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.83上
 broker.id=3
 advertised.listeners=PLAINTEXT://192.168.0.83:9092
 zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
启动：
 cd /usr/local/kafka/bin; ./kafka-server-start.sh -daemon config/server.properties &

kafka相关的操作请参考其他文章

canal部署&配置

下载 (https://github.com/alibaba/canal/releases)

11111111.png

部署安装，只需要服务端的包
tar zxvf canal.deployer-1.1.3-SNAPSHOT.tar.gz  -C /opt/canal
配置/usr/local/canal/conf/canal.properties
  主要配置项：
  canal.id = 1 （192.168.0.81上是1， 192.168.0.82上是2，canal的HA实现）
  canal.zkServers =192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
  canal.serverMode = kafka
  canal.destinations = test #canal.properties同级目录下 test目录中配置具体需要同步表格。 根据具体情况修改
  canal.mq.servers = 192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
配置/usr/local/canal/conf/test/instance.properties
  canal.instance.master.address=192.168.0.30:3306
  canal.instance.dbUsername=canal
  canal.instance.dbPassword=canal
  canal.instance.connectionCharset = UTF-8
  canal.instance.defaultDatabaseName = test #需要同步的数据库
  canal.instance.filter.regex=test\\.commission
  canal.mq.topic=commission
  canal.mq.partitionsNum=3
  canal.mq.partitionHash=commission:id
启动
  cd /usr/local/canal/bin
  sh ./start.sh