ElasticSearch中字符串keyword和text类型区别

文章目录

  • 一、 背景
  • 二、文本类型(text)关键字类型(keyword)区别
  • 三、代码使用

一、 背景

ES的基本数据类型很多,本文重点描述字符串类型:
ES2.*版本里面是没有这两个字段,只有string字段。
ES5.*及以后的版本,把string字段设置为了过时字段,引入text,keyword字段。

ES的基本数据类型,根据不同版本可能略有差异,参考官网不同版本说明:https://www.elastic.co/guide/en/elasticsearch/reference/6.2/mapping-types.html

二、文本类型(text)关键字类型(keyword)区别

一切文本类型的字符串可以定义成 “text”文本类型或“keyword”关键字类型两种类型。

区别在于,text类型(文本类型)会使用默认分词器分词,也就是存入的数据会先进行分词,然后将分完词的词组存入索引,当然你也可以为他指定特定的分词器。
text类型检索不是直接给出是否匹配,而是检索出相似度,并按照相似度由高到低返回结果。这样会导致本来我们认为应该查询出来的数据有可能会查询不到。

如果定义成keyword类型(关键字类型),那么默认就不会对其进行分词,原样存储。当一个字段需要按照精确值进行过滤、排序、聚合等操作时, 就应该使用keyword类型.
keyword类型检索,直接被存储为了二进制,检索时我们直接匹配,不匹配就返回false。所以精确匹配可以用keyword。

ES的模糊查询参考其他博文:
https://blog.csdn.net/pony_maggie/article/details/113951893
理论上模糊查询的性能是不如term,match的。

三、代码使用

eg:mapping结构

      {
       "mappings": {
          "example_test_type": {
            "dynamic": "false",
            "_all": {
              "enabled": false
            },
            "properties": {
              "userName": {//用户名字:测试人员(可以模糊匹配)
                "type": "text"
              },
              "userPlace": {//用户籍贯:吉林(需要精确匹配)
                "type": "keyword"
              },
              "createTime": {
                "type": "long"
              }
            }
          }
        }
       }  

get查询参数(成功查询回一条记录):

{
  "from": 0,
  "size": 10,
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "userPlace": {
              "value": "吉林",
              "boost": 1.0
            }
          }
        },
        {
          "match_phrase": {
            "userName": {
              "query": "测试",//入参只要被测试人员包含即可
              "slop": 0,
              "zero_terms_query": "NONE",
              "boost": 1.0
            }
          }
        }
      ],
      "adjust_pure_negative": true,
      "boost": 1.0
    }
  },
  "sort": [
    {
      "createTime": {
        "order": "desc"
      }
    }
  ]
}

java代码调用:

   /*
   *一、查询条件拼装
   **/
   SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
    BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
     //按创建时间降序排序
    List<FieldSortBuilder> sortBuilderList = new ArrayList<>();
    sortBuilderList.add(new FieldSortBuilder("createTime").order(SortOrder.DESC));
    if (CollectionUtils.isNotEmpty(sortBuilderList)) {
        for (FieldSortBuilder sortBuilder : sortBuilderList) {
            sourceBuilder.sort(sortBuilder);
        }
    }
	 //用户姓名
   boolQueryBuilder.must(QueryBuilders.matchPhraseQuery("userName", userName));
     //用户籍贯
   boolQueryBuilder.must(QueryBuilders.termQuery("userPlace", userPlace));
   sourceBuilder.query(boolQueryBuilder)/*
   *二、调es查询
   **/
   SearchRequest searchRequest = new SearchRequest(example_test_index);//索引
   searchRequest.types(example_test_type);//类型
   searchRequest.source(sourceBuilder);
   SearchResponse   response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
   
   /*
   *三、处理返回结果
   **/
    List<UserBO > resultList = new ArrayList<>();
    SearchHits hits = response.getHits();
    if (hits == null || hits.totalHits <= 0) {
        return null;
    }
    //es结果转成对象
    UserBO userBO = null;
    for (SearchHit hit : hits.getHits()) {
        userBO = JsonUtil.parseObject(hit.getSourceAsString(), UserBO .class);
    	resultList .add(userBO);
        }
    }
  }

此文字符串类型主要配合matchPhraseQuerytermQuery进行处理。

也可以两种类型都设置,既可以分词,又可以等值匹配:
 "docName":{
            "type":"text",
            "fields":{
                "keyword":{
                    "type":"keyword"
                }
            }
        },

另外fuzzy和match_phrase的区别:

1.fuzzy是词/项级别的模糊匹配,match_phrase是基于短语级别的

例如对于英文(standard分析器)来说"dog cat bird"来说"dog"就是一个词/词项,而"dog cat"就是一个短语,因此作用范围不一样。

2.fuzzy是基于莱文斯坦距离的,所以fuzzy是可以容错的例如你输入"dcg" 你也可以匹配到"dog cat bird",但是这里注意的是你的查询只能是单词条的查询,不能"dcg cat",如果你需要查询短语里面的拼写错误,可以使用match的fuzziness参数,match_phrase是不允许出现不存在的词条的。

你可能感兴趣的:(#,《ES必知必会》系列,es,keyword,text)