ElasticSearch（基础）

1.1 倒排索引倒排索引原理？？

ElasticSearch使用一种称为 ==倒排索引== 的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表够成，对于其中每个词，有一个包含它的文档列表

1.1.2 分词器介绍及内置分词器

分词器：从一串文本中切分出一个一个的词条，并对每个词条进行标准化
包括三部分：

character filter : 分词之前的预处理，过滤掉HTML标签，特殊符号转换等
tokenizer : 分词
token filter : 标准化

内置分词器：

standard分词器: （默认）将词汇单词转为小写形式，并去除停用词和标点符号，支持中文采用的方法为单字切分
simple分词器：首先会通过非字母字符来分割文本信息，然后将词汇单元统一为小写形式。该分析器会去掉数字类型的字符。
Whitespace分词器：仅仅是去除空格，对字符没有lowcase化，不支持中文；并且不对生成的词汇单元进行其他的标准化处理。
language分词器：特定语言的分词器，不支持中文

1.1.3 安装中文（IK）分词器

下载中文分词器下载地址进入es下bin目录下使用命令安装分词器资料
./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.2.2/elasticsearch-analysis-ik-6.2.2.zip
重启es 若在重启的过程中出现 Exception in thread "main" java.nio.file.AccessDeniedException 异常，重新对此用户赋予es此文件夹的权限即可
测试IK分词器基本功能分词器中ik_max_word和ik_smart的区别

#使用ik_smart进行分词
GET _analyze?pretty
{
  "analyzer": "ik_smart",
  "text": "湖南省邵阳市双清区"
}

#使用ik_max_word进行分词
GET _analyze?pretty
{
  "analyzer": "ik_max_word",
  "text": "湖南省邵阳市双清区"
}

#新词
GET _analyze?pretty
{
  "analyzer": "ik_smart",
  "text": "斗罗大陆"
}

查看已有词典打开目录cd /usr/local/software/elasticsearch-6.2.2/config/analysis-ik/
!!自定义词典在已有词典目录下使用命令 mkdir custom 新建自定义词典目录；
使用命令 vi custom/new_word.dic 新建编辑自定义词典
更新配置（将自定义词典配置进去）使用命令 vim IKAnalyzer.cfg.xml 编辑配置文件


    IK Analyzer 扩展配置
    
    custom/new_word.dic

重启es

1.1.4 使用ElasticSearch API 实现CRUD

添加索引

# 添加索引
PUT lib
{
  "settings": {
    "index": {
      # 分片 每个索引包含多个分片 分布在不同的node上
      "number_of_shards": 3,
      # 备份
      "number_of_replicas": 0
    }
  }
}

查看索引信息

# 查看索引信息
GET lib/_settings
# 查看所有所以的配置
GET _all/_settings

添加文档（数据） ==指定Id时使用PUT 不指定时使用POST==

# 添加文档（PUT POST）
PUT lib/user/1
{
  "username": "伍磊",
  "age": 23,
  "sex":"男"
}

# 结果
{
  "_index": "lib",
  "_type": "user",
  "_id": "1",
  "_version": 3,
  "result": "updated",
  "_shards": {
    "total": 1,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 2,
  "_primary_term": 1
}

查看

# 查看某一文档记录
GET lib/user/1
# 查看具体字段
GET lib/user/1?_source=username,age

更新文档

# 覆盖（PUT）全局替换，相当于先删除再增加
PUT lib/user/1
{
  "username": "伍磊",
  "age": 24,
  "sex":"男"
}
# 直接修改（POST）更新某几个字段 修改哪个字段填写哪个字段
POST lib/user/1/_update
{
  "doc": {
    "age": 23
  }
}

删除

# 删除文档
DELETE lib/user/1
# 删除索引
DELETE lib

1.1.5 批量获取文档

使用es提供的 Multi Get API:
可以通过索引名、类型名、文档ID一次得到一个文档集合，文档可以来自于同一个索引库，也可以来自不同索引库

# 批量获取 通过此命令获取多个文档信息
GET /_mget
{
  "docs": [
    {
      "_index": "lib",
      "_type": "user",
      "_id": 1,
      "_source": "username"
    },
    {
      "_index": "lib",
      "_type": "user",
      "_id": 2
    }
  ]
}

# 获取同索引同类型下不同的文档(指定获取的id集合)
GET lib/user/_mget
{
  "ids": [1,2]
}

1.1.6 使用Bulk API 实现批量操作

bulk的格式:

{action:{metadata}}\n
{requestbody}\n

action:(行为)

create: 文档不存在时创建
update: 更新文档
index : 创建新文档或替换已有文档
delete：删除一个文档

metadata: _index,_type,_id

create和index的区别

如果数据存在，使用create操作失败，会提示文档已经存在，使用index则可以成功执行。

示例：

# 批量添加 index：文档存在则替换否则添加
POST lib2/books/_bulk
{"index": {"_id":1}}
{"title": "java", "price": 55}
{"index": {"_id":2}}
{"title": "c++", "price": 48}
{"index": {"_id":3}}
{"title": "php", "price": 36}
{"index": {"_id":4}}
{"title": "Python", "price": 50}

# 查看刚刚批量添加的数据
GET lib2/books/_mget
{
  "ids": [1,2,3,4]
}

# 同时执行增删改 删除时不需要请求体
POST lib2/books/_bulk
{"delete": {"_index": "lib2", "_type": "books", "_id": 4}}
{"create": {"_index": "temp", "_type": "tt", "_id": 100}}
{"name": "测试-create"}
{"index": {"_index": "temp", "_type": "tt"}}
{"name": "测试-index"}
{"update": {"_index": "lib2", "_type": "books", "_id": 3}}
{"doc": {"price": 58}}

bulk一次最大处理多少数据量

bulk会把将要处理的数据载入内存中，所以数据量是有限制的，最佳的数据量不是一个确定的数值，它取决于你的硬件，你的文档大小以及复杂性，你的索引以及搜索的负载。一般建议是1000-5000个文档，大小建议是5-15MB，默认不能超过100M，可以在es的配置文件中进行配置

1.1.7 版本控制

ElasticSearch采用==乐观锁==来保证数据的一致性，也就是说，当用户对document进行操作时，并不需要对该document作加锁和解锁的操作，只需要==指定操作的版本==即可。当版本号一致时，ElasticSearch会允许该操作顺利执行，而当版本号存在冲突时，ElasticSearch会提示冲突并抛出异常（version_conflict_engine_exception）

# 修改时指定版本与es中版本不一致那么就会出现异常
PUT lib2/books/2?version=1
{
  "doc":{
    "price": 49
  }
}

ElasticSearch版本号取值为1~2^63-1

内部版本控制：使用的是_version

外部版本控制：ElasticSearch处理外部版本号时会对内部版本号的处理有些不同。不再是检查_version是否与请求中指定的数值相同，而是检查当前的_version是否比指定的数小。如果请求成功，那么外部的版本号就会被存储到文档中的_version中，为了保持_version与外部版本控制的数据一致，使用version_type=external

# 使用外部版本控制，在指定的版本号后加上version_type=external，若此指定# 的版本号>es中的版本号，那么添加成功，否则异常
PUT lib2/books/2?version=99&version_type=external
{
  "doc":{
    "price": 49
  }
}

1.1.8 Mapping

查看es自动创建的mapping

# 查看lib2索引下books类型的mapping
GET lib2/books/_mapping

# 结果 mapping(dynamic mapping) ——> 映射
{
  "lib2": {
    "mappings": {
      "books": {
        "properties": {
          "doc": {
            "properties": {
              "price": {
                "type": "long"
              }
            }
          },
          "price": {
            "type": "long"
          },
          "title": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          }
        }
      }
    }
  }
}

mapping定义了type中的每个字段的数据类型以及这些字段如何分词等相关属性
Elasticsearch 映射参数 fields
创建索引的时候，可以预先定义字段的类型以及相关属性，这样就能够把日期字段处理成日期，把数字字段处理成数字，把字符串字段处理字符串等支持的数据类型

核心数据类型（Core datatypes）

字符型：String 
String类型包括 text 和 keyword
text类型被用来索引长文本，在建立索引前会将这些文本进行分词，转化为词的组合，建立索引。允许es来检索这些词语。text类型不能用来排序和聚合。
Keyword类型不需要进行分词，可以被用来检索过滤，排序和聚合。Keyword类型字段只能用本身来进行检索。

数字型：long，integer,short,byte,double,float
日期型：date
布尔型：boolean
二进制型：binary

复杂数据类型（Complex datatypes）

数组类型（Array datatypes）: 数组类型不需要专门指定数组元素的type。例如：
    字符型数组： ["one", "two"]
    整形数组： [1, 2]
    数组型数组： [1, [2, 3]] 等价于 [1, 2, 3]
    对象数组: [{"name": "leiwu", "age": 23}, {"name": "wulei", "age": 23}]
对象类型（Object datatype）: _object_ 用于单个json对象
嵌套类型（Nested datatype）: _nested_ 用于json数组

地理位置类型（Geo datatypes）

地理坐标类型（Geo-point datatypes）: _geo_point_ 用于经纬度坐标
地理形状类型（Geo-shape datatypes）: _geo_shape_ 用于类似余多边形的复杂形状

特定类型（Specialised datatypes）

IPv4类型（IPv4 datatype）: _ip_ 用于IPv4地址
Completion类型（Completion datatype）: _completion_提供补全建议
Token count类型（Token count datatype）: _token_count_ 用于统计做了标记的字段的index数目，该值会一直增加，不会因为过滤条件而减少

手动创建mapping

# 创建索引 并为类型books设置mapping 可以设置字段的类型，分词器的选择，以及此字段查询时分词器的选择
PUT lib4
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 0
  },
  
  "mappings": {
    "books": {
      "properties": {
        "name": {"type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_smart"},
        "price": {"type": "double"}
      }
    }
  }
}

# 向索引中添加一条数据
POST lib4/books/2
{
  "name": "伍磊的java",
  "price": 19
}

# 指定分词器进行查询 （一般使用ik_max_word进行分词 使用ik_smart进行分词查询 这样能最大限度查询自己想要的结果）
GET lib4/books/_search
{
  "query": {
    "match": {"name": {"query": "伍磊", "analyzer": "ik_smart"}}
  }
}

2.1 查询相关

2.1.1 基本查询

term查询和terms查询

term query 会去倒排索引中寻找准确的term，它并不知道分词器的存在，这种查询适合keyword、numeric、date (倒排索引中有则能够查到)

term: 查询某个字段里面含有某个关键词的文档

# term/terms 关键词查询-倒排索引中有的才能查询出来 terms查询只要符合其中一个关键词就能查询出来
GET lib4/books/_search
{
  "query": {
    "term": {"name": "伍磊的"}
  }
}

# 查询从第"from"个开始 一共查询"size"个 按照"sort"进行排序 "version"表示同时将版本号查询出来
GET lib4/books/_search
{
  "from": 0,
  "size": 2,
  "version": true, 
  "sort": [
    {
      "price": {
        "order": "desc"
      }
    }
  ], 
  "query": {
    "term": {"name": "java"}
  }
}

match查询

match query 知道分词器的存在，会对filed进行分词操作，然后再查询

基本查询代码

# 通过match查询和指定分词器 可以将需要查询的字段分词之后再进行查询
GET lib4/books/_search
{
  "query": {
    "match": {
      "name": {"query": "伍磊很厉就说是吧", "analyzer": "ik_smart"}
    }
  }
}

# match_all 查询所有文档
GET lib4/books/_search
{
  "query": {
    "match_all": {}
  }
}

# multi_match: 可以指定多个字段 "query"表示需要寻找的关键字 "fileds"：表示从这些字段数组中匹配关键字 
GET lib4/books/_search
{
  "query": {
    "multi_match": {
      "query": "伍磊",
      "fields": ["name"]
    }
  }
}

# match_phrase:短语匹配查询
# ES引擎首先分析查询字符串，从分析后的文本中构建短语查询，这意味着必须匹配短语中的！！所有分词！！且保证各个分词的相对位置不变（查询时指定与此索引此字段mapping中同样的分词器才能实现精确查询）
GET lib4/books/_search
{
  "query": {
    "match_phrase": {
      "name": {"query": "伍磊的java", "analyzer": "ik_max_word"}
    }
  }
}

# "_source": "name" 表明返回的字段
GET lib4/books/_search
{
  "_source": "name", 
  "query": {
    "match_phrase": {
      "name": {"query": "伍磊的java", "analyzer": "ik_max_word"}
    }
  }
}

# "_source"下"includes" 表示返回需要包含哪些字段 "excludes"表示不包含哪些字段 上面两个均可用通配符表示
GET lib4/books/_search
{
  "_source": {
    "includes": ["nam*", "price"],
    "excludes": "pric*"
  },
  "query": {
    "match_phrase": {
      "name": {"query": "伍磊的java", "analyzer": "ik_max_word"}
    }
  }
}

# "match_phrase_prefix"前缀匹配查询
GET lib4/books/_search
{
  "_source": {
    "includes": ["nam*", "price"],
    "excludes": "pric*"
  },
  "query": {
    "match_phrase_prefix": {
      "name": {"query": "伍磊的jav", "analyzer": "ik_max_word"}
    }
  }
}

# 范围查询 表示查询价格从19到88的数据 其中include_lower（true）表示包含下界  include_upper(false)表示不包含上届
GET lib4/books/_search
{
  "query": {
    "range": {
      "price": {
        "from": 19,
        "to": 88,
        "include_lower": true,
        "include_upper": false
      }
    }
  }
}

# wildcard查询 允许使用通配符 "*" "?" 进行查询
# "*" 代表0或多个字符
# "?" 代表任意一个字符
# !!还是根据倒排索引进行查询 所以这个查询条件必须得是符合某个倒排索引才能查询出来
GET lib4/books/_search
{
  "query": {
    "wildcard": {
      "name": "伍*"
    }
  }
}

# fuzzy实现模糊查询

# 高亮显示字段 "highlight"
GET lib4/books/_search
{
  "query": {
    "wildcard": {
      "name": "伍?"
    }
  },
  "highlight": {"fields": {"name": {}}}
}

2.1.2 Filter查询

filter是不计算相关性的，同时可以cache。因此，filter速度要快于query

# 通过filetr查询价格为19的书
GET lib4/books/_search
{
  "query": {
    "bool": {
      "filter": [
          {"term": {"price": 19}}
        ]
    }
  }
}

# 通过filetr查询价格为19或88的书
GET lib4/books/_search
{
  "query": {
    "bool": {
      "filter": [
          {"terms": {"price": [19, 88]}}
        ]
    }
  }
}

bool过滤查询

可以实现组合过滤查询
格式 {"bool": {"must": [], "should": [], "must_not": []}}
must：必须满足的条件 ==> and
should: 可以满足也可以不满足的条件 ==> or
must_not: 不需要满足的条件 ==> not

# 通过bool过滤器匹配名字为java的书或价格为19的书
GET lib4/books/_search
{
  "query": {
    "bool": {
      "should": [
        {"match": {
          "name": "java"
        }},
        {"term": {
          "price": {
            "value": 19
          }
        }}
      ]
    }
  }
}

# 通过bool过滤器匹配名字为伍磊的书或名字包含java且价格为19的书（可以嵌套）
GET lib4/books/_search
{
    "query": {
        "bool": {
            "should": [
                {
                    "match": {
                        "name": "伍磊"
                    }
                }, 
                {
                    "bool": {
                        "must": [
                            {
                                "term": {
                                    "name": {
                                        "value": "java"
                                    }
                                }
                            }, 
                            {
                                "term": {
                                    "price": {
                                        "value": "19"
                                    }
                                }
                            }
                        ]
                    }
                }
            ]
        }
    }
}

范围过滤

gt : > lt : < gte : 大于等于 lte : 小于等于

# 通过filetr查询价格为19到88区间的书
GET lib4/books/_search
{
  "query": {
    "bool": {
      "filter": {
        "range": {
          "price": {
            "gte": 19,
            "lte": 88
          }
        }
      }
    }
  }
}

# 通过filetr查询价格存在的书
GET lib4/books/_search
{
  "query": {
    "bool": {
      "filter": {
        "exists": {
          "field": "price"
        }
      }
    }
  }
}

聚合查询

# 聚合查询 size表示只要获取聚合查询的结果 "aggs"表示聚合查询  "price_of_sum"自定义名称  "sum"表示总和 "min"表示最小值 
# "avg"表示平均数 "cardinality"表示基数（字段上互不相同的数的个数） "terms"表示分组
GET lib4/books/_search 
{
  "size": 0, 
  "aggs": {
    "price_of_sum": {
      "sum": {
        "field": "price"
      }
    }
  }
}

GET lib4/books/_search
{
  "size": 0, 
  "aggs": {
    "price_of_min": {
      "min": {
        "field": "price"
      }
    }
  }
}

# 对名字为java的书按价格分组，并计算每组中价格的平均值,按平均价格倒序排序
GET lib4/books/_search
{
  "size": 0, 
  "query": {
    "match": {
      "name": "java"
    }
  },
  "aggs": {
    "price_of_group": {
      "terms": {
        "field": "price",
        "order": {
          "price_of_avg": "desc"
        }
      },
      "aggs": {
      "price_of_avg": {
        "avg": {
          "field": "price"
          }
        }
      }
    }
  }
}