最近在做es 查询,有一个业务涉及到 类似sql in 查询功能。日志格式是自定义格式,按照某一个字段使用termsQuery 查询时,结果为空.
我用的是es6.x
数据流程: 日志文件——> logstash——>elasticsearch
日志格式 {"host_name":"VM-TR73PO26-DB","time":"2018-12-09", ...}
主机名: 按照
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
boolQuery.must(QueryBuilders.termsQuery("host_name", hostList)); //hostList 是List 集合。
SearchResponse searchResponse = searchRequestBuilder.execute().actionGet();
返回结果为空。
使用:
QueryBuilders.queryStringQuery()、QueryBuilders.matchQuery() 可以正常查询结果
经过排查分析,发现 termsQuery 会把主机名 按照 "-" 分词,转化小写、索引倒排, 按照 "tr73po26" 可以查询到结果。
太坑。。。
找到原因,解决思路,不让分词。按照这个思路,有两种解决方法:
方法一:
在出现分词查询,key 添加keyword。只适用于es6
boolQuery.must(QueryBuilders.termsQuery("host_name.keyword", hostList));
方法二:
可以修改 es 或者logstash 分词规则。比较好方式修改 es 映射规则,好处不多说。
比较悲催我用的别人提供es ,没权限修改。 没辙了只能修改logstash 映射模板。配置如下:
output {
elasticsearch {
hosts => "localhost:9200"
index => "my_index"
template => "/data1/cloud/logstash-5.5.1/filebeat-template.json" //模板映射文件
template_name => "my_index"
template_overwrite => true //覆盖原有模板
}
}
至此已完成模板替换。
filebeat-template.json 格式如下:
{
"template" : "索引",
"order":1 //设置 > 0 值, 执行从大到小映射模板
"settings" : {
"index.number_of_shards": 1,
"number_of_replicas": 1
},
"mappings" : {
"_default_" : {
"_all" : {"enabled" : true, "omit_norms" : true},
"dynamic_templates" : [ {
"message_field" : {
"match" : "message",
"match_mapping_type" : "string",
"mapping" : {
"type" : "string", "index" : "not_analyzed", "omit_norms" : true,
"fielddata" : { "format" : "disabled" }
}
}
}, {
"string_fields" : {
"match" : "*",
"match_mapping_type" : "string",
"mapping" : {
"type" : "string", "index" : "not_analyzed", "doc_values" : true
}
}
} ],
"properties" : {
"@timestamp" : {
"type" : "string"
},
"health_time" : {
"type" : "string"
},
"host_name" : {
"type" : "string",
"index": "not_analyzed"
},
"tags" : {
"type" : "string"
},
"type" : {
"type" : "string"
}
}
}
}
}
localhost:9200/索引/_mapping?pretty 查看模板是否生效。
重新执行 termsQuery 结果正常。
推荐方法二,es 版本升级到7 字段添加 keyword 检索不到数据。 es6 与es7 mapping文件有差别,以上mapping 不适用于es7, 具体差别自行了解,不作介绍。