最近对线上业务进行重构,涉及到ES同步这一块,在重构过程中,为了ES 写入 性能考虑,大量的采取了 bulk的方式,来保证整体的一个同步速率,针对BulkProcessor 来深入一下,了解下 是如何实现,基于请求数,请求数据量大小 和 固定时间,刷新写入ES 的原理
针对ES 批量写入, 提供了3种方式,在 high-rest-client 中
分别是 bulk bulkAsync bulkProcessor 3种方式。
本文主要针对 bulkProcessor 来进行一些讲述
BulkProcessor
官方介绍
BulkProcessor是一个线程安全的批量处理类,允许方便地设置 刷新 一个新的批量请求
(基于数量的动作,根据大小,或时间),
容易控制并发批量的数量
请求允许并行执行。
创建流程
How To use ?
来看个demo 创建BulkProcessor
@Bean(name = "bulkProcessor") // 可以封装为一个bean,非常方便其余地方来进行 写入 操作
public BulkProcessor bulkProcessor(){
BiConsumer> bulkConsumer =
(request, bulkListener) -> Es6XServiceImpl.getClient().bulkAsync(request, RequestOptions.DEFAULT, bulkListener);
return BulkProcessor.builder(bulkConsumer, new BulkProcessor.Listener() {
@Override
public void beforeBulk(long executionId, BulkRequest request) {
// todo do something
int i = request.numberOfActions();
log.error("ES 同步数量{}",i);
}
@Override
public void afterBulk(long executionId, BulkRequest request, BulkResponse response) {
// todo do something
Iterator iterator = response.iterator();
while (iterator.hasNext()){
System.out.println(JSON.toJSONString(iterator.next()));
}
}
@Override
public void afterBulk(long executionId, BulkRequest request, Throwable failure) {
// todo do something
log.error("写入ES 重新消费");
}
}).setBulkActions(1000) // 达到刷新的条数
.setBulkSize(new ByteSizeValue(1, ByteSizeUnit.MB)) // 达到 刷新的大小
.setFlushInterval(TimeValue.timeValueSeconds(5)) // 固定刷新的时间频率
.setConcurrentRequests(1) //并发线程数
.setBackoffPolicy(BackoffPolicy.exponentialBackoff(TimeValue.timeValueMillis(100), 3)) // 重试补偿策略
.build();
}
使用BulkProcessor
bulkProcessor.add(xxxRequest)
创建过程做了些什么?创建一个consumer 对象用来封装传递参数,和请求操作
BiConsumer> bulkConsumer =
(request, bulkListener) -> Es6XServiceImpl.getClient().bulkAsync(request, RequestOptions.DEFAULT, bulkListener);
我们可以看到用了java 8的函数式编程接口 BiConsumer 关于 BiConsumer 的用法,可以自行百度,因为也是采取的 异步刷新策略, 所以,是一个返回结果的Listener ActionListener
构建并BulkProcess
return BulkProcessor.builder(bulkConsumer, new BulkProcessor.Listener() {
****
}).setBulkActions(1000)