广告倒排索引架构与优化

在广告系统中倒排索引起着至关重要的作用，当请求过来时，需要根据定向信息从倒排索引中匹配合适的广告。我们的倒排索引采用的是ElasticSearch（后面简称ES），考虑点是社区活跃，相关采集、可视化、监控以及报警等组件比较完善，同时ES基于java开发，所以调优和二次开发相对方便

先看下我们的倒排索引的架构图

file

这个架构设计成如上图这样，经过了下面的思考与迭代

单点与稳定性问题

采用多节点部署

其中 A builder和 B builder都是两个节点，一个主和一个备，他们通过争抢锁（用zookeeper实现）来决定谁是主

多个节点会带来数据不一致问题

file

查询数据库获取最新数据（订单和创意更新频率低，所以对数据库压力不大）

索引查询与重建索引问题与优化

压测ES QPS不高、CPU负载高、YGC频繁、索引重建索引耗时长

我们分别从查询和重建两个方向来看

查询

file

而我们的场景是请求量大，索引小（100M以内），所以把主分片调整为1，副本调整为节点数-1，这样能保证每个节点都存储所有索引，这样只会有一次io操作，如下图所示

file

ES(lucencu) 串行读取所有segment

索引更新会使segment数量增加，es对segment的查询是串行的，所以我们采用每分钟定时用 _forcemerge将segment降为1
热点方法排查发现JSON反序列化占50%cpu

禁用source只采用field存储必要字段
指定查询偏向本机节点

设置preference:_local

重建

后记

我们采用的方案，有些并不符合业界常用和推荐的方式，但是符合我们自己的业务，所以方案一定要适合自己团队的业务，没有最好的方案，只有更适合的方案