1. term查询是基于词项的查询,而且当设置为term查询时,es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现查不出来的情况,比如:
POST /test/_doc
{
"name":"Pantheon"
}
这样创建出来的doc可以看到明显做了lowercase,因为用的standard分词器
GET /test/_analyze
{
"field": "name",
"text": "Pantheon"
}
// 结果如下
{
"tokens" : [
{
"token" : "pantheon",
"start_offset" : 0,
"end_offset" : 8,
"type" : "",
"position" : 0
}
]
}
所以当使用下面的语句去查时,会没有结果
GET /test/_search
{
"query": {
"term": {
"name": {
"value": "Pantheon"
}
}
}
}
所以需要使用es给字段额外添加的一个元数据信息.keyword,在生成文本时,
es也会将该字段原封不动的保存到keyword属性当中去,所以下面这个语句可以查询出来
GET /test/_search
{
"query": {
"term": {
"name.keyword": {
"value": "Pantheon"
}
}
}
}
2. match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词,通常来讲,索引的时候怎么分的词,查询的时候就是用的什么分词器,默认是不用设置的,但是如果有个别场景,也可以自己设置分词器。
区别举个例子,"I am Pantheon",这句话如果用match来查,会搜出字段中有"I","am","Pantheon"的文档,也就是说默认是只要这段话中有这查询几个词的一个就返回文档 [结果1];当然也可以设置他的'operator'属性为'and',要求查出来的必须包含"I am Pantheon"这几个词" [结果2]。
而match_pharse可以精确的查询"I am Pantheon"【demo3】这一段话,这几个词之间有没有间隔可以通过slot属性来设置【demo4】,比如设置了slot为1,那就可以查出"I am not Pantheon"这样的句子,举例如下:
POST /test/_bulk
{ "index": { "_id": 1 }}
{ "desc":"I am Pantheon" }
{ "index": { "_id": 2 }}
{ "desc":"I am not Pantheon" }
{ "index": { "_id": 3 }}
{ "desc":"I am Leo" }
### 结果1
GET /test/_search
{
"query": {
"match": {
"desc": "I am Pantheon"
}
}
}
### 结果2
GET /test/_search
{
"query": {
"match": {
"desc":{
"query": "I am Pantheon",
"operator": "and"
}
}
}
}
### 结果3
GET /test/_search
{
"query": {
"match_phrase": {
"desc":{
"query": "I am Pantheon"
}
}
}
}
### 结果4--有先后顺序 包含多个,解决了我们查询只有部分匹配。示例 张峰 ,会将所有张的查到,峰的也会查到。
GET /test/_search
{
"query": {
"match_phrase": {
"desc":{
"query": "I am Pantheon"
}
}
}
}
### 结果5
GET /test/_search
{
"query": {
"match_phrase": {
"desc":{
"query": "I am Pantheon",
"slop": 1
}
}
}
}
总结:三种查询都是对分词组合不同的玩法
1.基于词项的查询
a.term查询,基于词项的查询。精确匹配,只是查分词,不会对查询语句做任何处理。es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现大小写不匹配查不出来的情况。
2.全文查询【对当前句子进行分词】
match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词
b.match查询,查询语句分词后对文档是否包含的一种
c.match_phase是对查询语句分词后,各词项间隔距离多少的玩法
ps 我们线上曾经遇见过一个问题:
问题描述:使用的是match查询,但是当我们查询 ”张峰”时,会将所有“张”的查询到,“峰”的也会查询到。这样就会导致一个问题,例如查询“努尔哈赤-张峰”,那么就会返回很多我们不希望要的结果。
解决办法
1.使用match_phrase 精确查询,如果查询 “张峰”,那么返回所有的结果集,都是 “张峰”。由于业务没有使用slop【参数如果置为1,可以同时查询得到 “张峰” “张大峰”】
2.继续使用match 查询,但是加上operator 。示例
GET /test/_search
{
"query": {
"match": {
"desc":{
"query": "I am zhanggf",
"operator": "and"
}
}
}
}
如上的可以查看到
I am zhanggf
I am not zhanggf
ES 第一次线上规划设计,难免有很多理解偏差。后续继续修正。