公司是做社交电商的,一些业务场景会给用户发各种类型的收益,然后用户在app上可以看到自己的各种汇总收益及收益明细。 在项目运营初期,用户数少、收益明细少,所以用户在app获取收益汇总时不会有性能相关的问题。然后随着用户数量的增加,业务的扩展,用户收益数据越来越多,用户每次访问收益汇总信息时,实时的通过sql汇总查询会遇到性能问题。
解决方案
A:离线汇总+缓存
B:汇总表+业务逻辑实时【消息队列等】写入到汇总表
C:mysql+canal+kafka实时计算
A 方案问题: 实时性不足,用户获到收益后,明细存在但却没有加到汇总信息中。而且业务中有使用可用余额支付的场景,无法完全满足用户及业务的需求。
B 方案问题:业务耦合,每个业务线都要关注数据实时问题。 业务线多了的话有可能会遗漏部分场景。
C 方案:业务解耦,业务开发时无需过度关注收益汇总问题。实时性较强,收益数据正常产生到用户看到基本在毫秒级别
mysql+canal+kafka实时计算介绍
当用户收益数据产生写入到mysql, canal监控到mysql的写操作,解析binlog日志写入到kafka。 消费者(python)消费kafka消息,根据具体的业务汇总数据到汇总表, app查看直接读取汇总表记录即可。
默认jdk环境都已经配置OK
192.168.0.81 (zk/kafka/canal)
192.168.0.82 (zk/kafka/canal)
192.168.0.83 (zk/kafka/kafka-consumer)
集群模式部署
wget https://www.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
tar -zxvf zookeeper-3.4.14.tar.gz
mv zookeeper-3.4.14 /usr/local/zk
vi /usr/local/zk/conf/zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataLogDir=/opt/zookeeper/logs
dataDir=/opt/zookeeper/data
clientPort=2181
autopurge.snapRetainCount=500
autopurge.purgeInterval=24
server.1= 192.168.0.81:2888:3888
server.2= 192.168.0.82:2888:3888
server.3= 192.168.0.83:2888:3888
在目录 /opt/zookeeper/data下执行
192.168.0.81上 echo "1" >> myid
192.168.0.82上 echo "2" >> myid
192.168.0.83上 echo "3" >> myid
cd /usr/local/zk/bin
# 1、启动
./zkServer.sh start
# 2、停止
./zkServer.sh stop
# 3、查看状态
./zkServer.sh status
# 4、重启
./zkServer.sh restart
下载相应的版本解压到/usr/local/kafka目录:
配置修改配置文件 /usr/local/kafka/config/server.properties
主要配置项
192.168.0.81上
broker.id=1
advertised.listeners=PLAINTEXT://192.168.0.81:9092
zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.82上
broker.id=2
advertised.listeners=PLAINTEXT://192.168.0.82:9092
zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
192.168.0.83上
broker.id=3
advertised.listeners=PLAINTEXT://192.168.0.83:9092
zookeeper.connect=192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
启动:
cd /usr/local/kafka/bin; ./kafka-server-start.sh -daemon config/server.properties &
kafka相关的操作请参考其他文章
安装,只需要服务端的包
tar zxvf canal.deployer-1.1.3-SNAPSHOT.tar.gz -C /opt/canal
配置/usr/local/canal/conf/canal.properties
主要配置项:
canal.id = 1 (192.168.0.81上是1, 192.168.0.82上是2,canal的HA实现)
canal.zkServers =192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
canal.serverMode = kafka
canal.destinations = test #canal.properties同级目录下 test目录中配置具体需要同步表格。 根据具体情况修改
canal.mq.servers = 192.168.0.81:2181,192.168.0.82:2181,192.168.0.83:2181
配置/usr/local/canal/conf/test/instance.properties
canal.instance.master.address=192.168.0.30:3306
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName = test #需要同步的数据库
canal.instance.filter.regex=test\\.commission
canal.mq.topic=commission
canal.mq.partitionsNum=3
canal.mq.partitionHash=commission:id
启动
cd /usr/local/canal/bin
sh ./start.sh