什么是ElasticSearch
Elasticsearch(ES) 是一个基于Lucene构建的开源、分布式、RESTful接口全文搜索引擎。ElasticSearch还是一个分布式文档数据库,其中每个字段均被索引且可被搜索,它能够扩展至数以百计的服务器存储以及处理PB级的数据。他可以在很短的时间内存储、搜索和分析大量的数据。
demo地址 :https://github.com/keyuanupup/springboot-elasticsearch
java与ES整合配置
参考项目现有配置
索引的构建
- 索引的创建
- 索引的删除
DELETE http://127.0.0.1:9200/goods
- 判断索引是否存在
数据操作
- 新增数据
POST http://127.0.0.1:9200/goods/_doc/00005
{
"name":"裤子",
"skuId":"5",
"spuId":"2",
"colorId":"3",
"price":90.3,
"colorName":"绿色"
}
- 更新数据
POST http://127.0.0.1:9200/goods/_doc/00003/_update
{
"doc":{
"price":12.4
}
}
- 删除数据
DELETE http://127.0.0.1:9200/goods/_doc/00002
- 根据id查询数据
GET http://127.0.0.1:9200/goods/_doc/00003
搜索
- 分页
GET http://127.0.0.1:9200/goods/_doc/_search
{
"size":2,
"from":1
}
- 排序
GET http://127.0.0.1:9200/goods/_doc/_search
{
"sort": [
{
"skuId": {
"order": "desc"
}
}
]
}
- term 相等的查询
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"term": {
"name.keyword": {
"value": "袜子"
}
}
}
}
- terms in查询
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query":{
"terms": {
"skuId": [
1,
2
]
}
}
}
- wildcard 模糊匹配(like)
text会对字段进行分词处理而keyword则不会
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"wildcard": {
"name.keyword": {
"wildcard": "*子牛仔*",
"boost": 1
}
}
}
}
- range 范围查询
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"range": {
"skuId": {
"from": null,
"to": 2,
"include_lower": true,
"include_upper": false,
"boost": 1
}
}
}
}
- match 分词查询
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query":{
"match":{
"name":"裤子"
}
}
}
- multi_match 分词查询(匹配多词)
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"multi_match": {
"query": "红色 裤子",
"fields": [
"colorName^1.0",
"name^1.0"
],
"boost": 1
}
},
"explain":true
}
- bool
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"bool": {
"must": [
{
"term": {
"colorId": {
"value": 1,
"boost": 1
}
}
},
{
"wildcard": {
"name.keyword": {
"wildcard": "*袜子*",
"boost": 1
}
}
}
],
"adjust_pure_negative": true,
"boost": 1
}
}
}
- 查询和过滤
- 使用过滤的时候,es不会对条件进行打分,效率会比查询快
- 查询指定字段
- 折叠
GET http://127.0.0.1:9200/goods/_doc/_search
{
"collapse": {
"field": "spuId"
}
}
1. 折叠后总数统计不准确
- 权重
GET http://127.0.0.1:9200/goods/_doc/_search
{
"query": {
"bool": {
"should": [
{
"term": {
"skuId": {
"value": 5,
"boost": 12
}
}
},
{
"term": {
"colorId": {
"value": 1,
"boost": 6
}
}
}
],
"boost": 1
}
},
"sort": [
{
"_score": {
"order": "desc"
}
}
],
"explain":true
}
- aggs(分组)
高级
-
分片和备份
cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
- 默认1个分片,一个备份
- 加入ik分词器
ik分词器插件地址 : https://github.com/medcl/elasticsearch-analysis-ik
使用方法
- 下载项目 - mvn package - 拷贝elasticsearch-analysis-ik-7.1.0\target\releases\elasticsearch-analysis-ik-7.0.0.zip 到目录 elasticsearch-7.1.0\plugins - 重启ES
-
加入同义词
同义词插件地址 : https://github.com/bells/elasticsearch-analysis-dynamic-synonym
-
重复数据的处理
- 对数据给出明确的排序
- 传入查询时间,只查询指定时间前的数据
- 使用scroll