Google,百度类的网站搜索,它们都是根据网页中的关键字生成索引,我们在搜索的时 候输入关键字,它们会将该关键字即索引匹配到的所有网页返回;还有常见的项目中应用日 志的搜索等等。对于这些非结构化的数据文本,关系型数据库搜索不是能很好的支持。
一般传统数据库,全文检索都实现的很鸡肋,因为一般也没人用数据库存文本字段。进 行全文检索需要扫描整个表,如果数据量大的话即使对 SQL 的语法优化,也收效甚微。建立了索引,但是维护起来也很麻烦,对于 insert 和 update 操作都会重新构建索引。
基于以上原因可以分析得出,在一些生产环境中,使用常规的搜索方式,性能是非常差 的。
Lucene 是 Apache 软件基金会 Jakarta 项目组的一个子项目,提供了一个简单却强大的 应用程式接口,能够做全文索引和搜寻。在 Java 开发环境里 Lucene 是一个成熟的免费开源 工具。就其本身而言,Lucene 是当前以及最近几年最受欢迎的免费 Java 信息检索程序库。 但 Lucene 只是一个提供全文搜索功能类库的核心工具包,而真正使用它还需要一个完善的 服务框架搭建起来进行应用。
目前市面上流行的搜索引擎软件,主流的就两款:Elasticsearch 和 Solr,这两款都是基 于 Lucene 搭建的,可以独立部署启动的搜索引擎服务软件。由于内核相同,所以两者除了 服务器安装、部署、管理、集群以外,对于数据的操作 修改、添加、保存、查询等等都十 分类似。
Elasticsearch 的官方地址:https://www.elastic.co/cn/
直接下载window版本即可
Windows 版的 Elasticsearch 的安装很简单,解压即安装完毕,解压后的 Elasticsearch 的 目录结构如下
解压后,进入 bin 文件目录,点击 elasticsearch.bat 文件启动 ES 服务
注意:9300端口为 Elasticsearch 集群间组件的通信端口,9200 端口为浏览器访问的 http 协议 RESTful 端口。
打开浏览器(推荐使用谷歌浏览器),输入地址:http://localhost:9200,测试结果
Elasticsearch 是使用 java 开发的,且 7.8 版本的 ES 需要 JDK 版本 1.8 以上,默认安装 包带有 jdk 环境,如果系统配置 JAVA_HOME,那么使用系统默认的 JDK,如果没有配 置使用自带的 JDK,一般建议使用系统配置的 JDK。
双击启动窗口闪退,通过路径访问追踪错误,如果是“空间不足”,请修改config/jvm.options 配置文件
在 REST 样式的 Web 服务中,每个资源都有一个地址。资源本身都是方法调用的目 标,方法列表对所有资源都是一样的。这些方法都是标准方法,包括 HTTP GET、POST、 PUT、DELETE,还可能包括 HEAD 和 OPTIONS。简单的理解就是,如果想要访问互联 网上的资源,就必须向资源所在的服务器发出请求,请求体中必须包含资源的网络路径,以 及对资源进行的操作(增删改查)
get,put,delete具有幂等性,即向ES服务器多次发送同一个url,操作是相当的;而post没有幂等性,多次发送的请求不同
Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。为了方便大家理解, 我们将 Elasticsearch 里存储文档数据和关系型数据库 MySQL 存储数据的概念进行一个类比
ES 里的 Index 可以看做一个库,而 Types 相当于表,Documents 则相当于表的行。 这里 Types 的概念已经被逐渐弱化,Elasticsearch 6.X 中,一个 index 下已经只能包含一个 type,Elasticsearch 7.X 中, Type 的概念已经被删除了。
文档以Json形式存储,比如一条用户信息
{
"name" : "John",
"sex" : "Male",
"age" : 25,
"birthDate": "1990/05/01",
"about" : "I love to go rock climbing",
"interests": [ "sports", "music" ]
}
简单来讲就是咱们在ES中所有数据的文件块,也是数据的最小单元块,整个ES集群的核心就是对所有分片的分布、索引、负载、路由等达到惊人的速度
实列场景:假设 IndexA 有2个分片,我们向 IndexA 中插入10条数据 (10个文档),那么这10条数据会尽可能平均的分为5条存储在第一个分片,剩下的5条会存储在另一个分片中。
对比关系型数据库,创建索引就等同于创建数据库
向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/shopping
{
"acknowledged"【响应结果】: true, # true 操作成功
"shards_acknowledged"【分片结果】: true, # 分片操作成功
"index"【索引名称】: "shopping"
}
# 注意:创建索引库的分片数默认 1 片,在 7.0.0 之前的 Elasticsearch 版本中,默认 5 片
如果重复添加索引,会返回错误信息
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/_cat/indices?v
这里请求路径中的_cat 表示查看的意思,indices 表示索引,所以整体含义就是查看当前 ES 服务器中的所有索引,就好像 MySQL 中的 show tables 的感觉,服务器响应结果如下
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shopping
{
"shopping"【索引名】: {
"aliases"【别名】: {},
"mappings"【映射】: {},
"settings"【设置】: {
"index"【设置 - 索引】: {
"creation_date"【设置 - 索引 - 创建时间】: "1614265373911",
"number_of_shards"【设置 - 索引 - 主分片数量】: "1",
"number_of_replicas"【设置 - 索引 - 副分片数量】: "1",
"uuid"【设置 - 索引 - 唯一标识】: "eI5wemRERTumxGCc1bAk2A",
"version"【设置 - 索引 - 版本】: {
"created": "7080099"
},
"provided_name"【设置 - 索引 - 名称】: "shopping"
}
}
}
}
向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/shopping
重新访问索引时,服务器返回响应:索引不存在
索引已经创建好了,接下来我们来创建文档,并添加数据。这里的文档可以类比为关系型数 据库中的表数据,添加的数据格式为 JSON 格式
向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping/_doc
请求体内容为:
{
"title":"小米手机",
"category":"小米",
"images":"http://www.gulixueyuan.com/xm.jpg",
"price":3999.00
}
此处发送请求的方式必须为 POST,不能是 PUT,否则会发生错误
{
"_index"【索引】: "shopping",
"_type"【类型-文档】: "_doc",
"_id"【唯一标识】: "Xhsa2ncBlvF_7lxyCE9G", #可以类比为 MySQL 中的主键,随机生成
"_version"【版本】: 1,
"result"【结果】: "created", #这里的 create 表示创建成功
"_shards"【分片】: {
"total"【分片 - 总数】: 2,
"successful"【分片 - 成功】: 1,
"failed"【分片 - 失败】: 0
},
"_seq_no": 0,
"_primary_term": 1
}
上面的数据创建后,由于没有指定数据唯一性标识(ID),默认情况下,ES 服务器会随机 生成一个。 如果想要自定义唯一性标识,需要在创建时指定:http://127.0.0.1:9200/shopping/_doc/1
此处需要注意:如果增加数据时明确数据主键,那么请求方式也可以为 PUT
查看文档时,需要指明文档的唯一性标识,类似于 MySQL 中数据的主键查询
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shopping/_doc/1
和新增文档一样,输入相同的 URL 地址请求,如果请求体变化,会将原有的数据内容覆盖
向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping/_doc/1
请求体内容为:
{
"title":"华为手机",
"category":"华为",
"images":"http://www.gulixueyuan.com/hw.jpg",
"price":4999.00
}
修改数据时,也可以只修改某一给条数据的局部信息
向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping/_update/1
注意全体修改为_doc,修改字段为_update
请求体内容为:
{
"doc": {
"price":3000.00
}
}
删除一个文档不会立即从磁盘上移除,它只是被标记成已删除(逻辑删除)。
向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/shopping/_doc/1
{
"_index": "shopping",
"_type": "_doc",
"_id": "1",
"_version"【版本】: 4, #对数据的操作,都会更新版本
"result"【结果】: "deleted", # deleted 表示数据被标记为删除
"_shards": {
"total": 2,
"successful": 1,
"failed": 0
},
"_seq_no": 4,
"_primary_term": 2
}
一般删除数据都是根据文档的唯一性标识进行删除,实际操作时,也可以根据条件对多条数据进行删除
首先分别增加多条数据:
{
"title":"小米手机",
"category":"小米",
"images":"http://www.gulixueyuan.com/xm.jpg",
"price":4000.00
}
{
"title":"华为手机",
"category":"华为",
"images":"http://www.gulixueyuan.com/hw.jpg",
"price":4000.00
}
向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping/_delete_by_query
请求体内容为:
{
"query":{
"match":{
"price":4000.00
}
}
}
有了索引库,等于有了数据库中的 database。
接下来就需要建索引库(index)中的映射了,类似于数据库(database)中的表结构(table)。 创建数据库表需要设置字段名称,类型,长度,约束等;索引库也一样,需要知道这个类型 下有哪些字段,每个字段有哪些约束信息,这就叫做映射(mapping)。
先创建一个索引student,然后添加映射
向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/student/_mapping
请求体内容为:
{
"properties": {
"name":{
"type": "text",
"index": true
},
"sex":{
"type": "text",
"index": false
},
"age":{
"type": "long",
"index": false
}
}
}
映射数据说明:
字段名:任意填写,下面指定许多属性,例如:title、subtitle、images、price
type:类型,Elasticsearch 中支持的数据类型非常丰富,说几个关键的:
(1)String 类型,又分两种:
(2)Numerical:数值类型,分两类
(3)Date:日期类型
(4)Array:数组类型
(5) Object:对象
index:是否索引,默认为 true,也就是说你不进行任何配置,所有字段都会被索引
true:字段会被索引,则可以用来进行搜索
false:字段不会被索引,不能用来搜索
store:是否将数据进行独立存储,默认为 false
原始的文本会存储在_source 里面,默认情况下其他提取出来的字段都不是独立存储 的,是从_source 里面提取出来的。当然你也可以独立的存储某个字段,只要设置 “store”: true 即可,获取独立存储的字段要比从_source 中解析快得多,但是也会占用 更多的空间,所以要根据实际业务需求来设置。
analyzer:分词器,这里的 ik_max_word 即使用 ik 分词器
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_mapping
即在创建索引的时候即添加映射要求
创建一个student1索引,添加映射要求如下:
{
"settings": {},
"mappings": {
"properties": {
"name":{
"type": "text",
"index": true
},
"sex":{
"type": "text",
"index": false
},
"age":{
"type": "long",
"index": false
}
}
}
}
向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/student1
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6GCT91ui-1650284771661)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220412142729141.png)]
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
或者带请求体,但全匹配,即查出所有文档
{
"query": {
"match_all": {}
}
}
// "query":这里的 query 代表一个查询对象,里面可以有不同的查询属性
// "match_all":查询类型,例如:match_all(代表查询所有), match,term , range 等等
// {查询条件}:查询条件会根据类型的不同,写法也有差异
{
"took【查询花费时间,单位毫秒】" : 1116,
"timed_out【是否超时】" : false,
"_shards【分片信息】" : {
"total【总数】" : 1,
"successful【成功】" : 1,
"skipped【忽略】" : 0,
"failed【失败】" : 0
},
"hits【搜索命中结果】" : {
"total"【搜索条件匹配的文档总数】: {
"value"【总命中计数的值】: 3,
"relation"【计数规则】: "eq" // eq 表示计数准确, gte 表示计数不准确
},
"max_score【匹配度分值】" : 1.0,
"hits【命中结果集合】" : [
。。。
}
]
}
}
match 匹配类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是 or 的关系
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shooping/_search
{
"query": {
"match": {
"category":"小米"
}
}
}
多字段匹配查询,即查询条件可以在多个字段中去进行匹配
multi_match 与 match 类似,不同的是它可以在多个字段中查询。
向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shooping/_search
{
"query": {
"multi_match": {
"query": "小米",
"fields": ["tile","category"]
}
}
}
//即title或者category字段中包含小米即可被查出
精确的关键词匹配查询,不对查询条件进行分词。
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search,
{
"query":{
"match_phrase":{
"category" : "华为"
}
}
}
如果只想查询指定的某个字段,比如只需要title
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"match_all":{}
},
"_source":["title"]
}
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"match_all":{}
},
"from":0, //起始页
"size":2 //页的大小
}
如果你想对查询结果进行排序,如根据价格降序排序
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"match_all":{}
},
"sort":{
"price":{
"order":"desc"
}
}
}
假设想找出小米牌子并且价格为3999元的。(must相当于数据库的&&)
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"bool":{
"must":[{
"match":{
"category":"小米"
}
},{
"match":{
"price":3999.00
}
}]
}
}
}
假设想找出小米或华为的牌子,即满足一个条件即可。(should相当于数据库的||)
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"bool":{
"should":[{
"match":{
"category":"小米"
}
},{
"match":{
"category":"华为"
}
}]
}
}
}
假设想找出小米或华为的牌子,价格大于2000元的手机。
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"query":{
"bool":{
"should":[{
"match":{
"category":"小米"
}
},{
"match":{
"category":"华为"
}
}],
"filter":{
"range":{
"price":{
"gt":2000
}
}
}
}
}
}
即在查询结果中将查询条件高亮
{
"query":{
"match_phrase":{
"category" : "华为"
}
},
"highlight":{
"fields":{
"category":{}//<----高亮这字段
}
}
}
聚合允许使用者对 es 文档进行统计分析,类似与关系型数据库中的 group by,当然还有很多其他的聚合,例如取最大值max、平均值avg等等。
如按price字段进行分组:
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"aggs":{//聚合操作
"price_group":{//名称,随意起名
"terms":{//分组
"field":"price"//分组字段
}
}
}
}
上面返回结果会附带原始数据的。若不想要不附带原始数据的结果,只想要统计结果
向 ES 服务器发 GET请求 :http://127.0.0.1:9200/shopping/_search
{
"aggs":{
"price_group":{
"terms":{
"field":"price"
}
}
},
"size":0
}
若想对所有手机价格求平均值。
向 ES 服务器发 GET请求 : http://127.0.0.1:9200/shopping/_search
{
"aggs":{
"price_avg":{//名称,随意起名
"avg":{//求平均
"field":"price"
}
}
},
"size":0
}
maven依赖:
<dependencies>
<dependency>
<groupId>org.elasticsearchgroupId>
<artifactId>elasticsearchartifactId>
<version>7.8.0version>
dependency>
<dependency>
<groupId>org.elasticsearch.clientgroupId>
<artifactId>elasticsearch-rest-high-level-clientartifactId>
<version>7.8.0version>
dependency>
<dependency>
<groupId>org.apache.logging.log4jgroupId>
<artifactId>log4j-apiartifactId>
<version>2.17.1version>
dependency>
<dependency>
<groupId>org.apache.logging.log4jgroupId>
<artifactId>log4j-coreartifactId>
<version>2.17.1version>
dependency>
<dependency>
<groupId>com.alibabagroupId>
<artifactId>fastjsonartifactId>
<version>1.2.78version>
dependency>
<dependency>
<groupId>junitgroupId>
<artifactId>junitartifactId>
<version>4.12version>
dependency>
dependencies>
试试建立连接
public class Es_client {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
//释放连接
client.close();
}
}
Java通过API操作ES也不过是封装了原生的restful请求罢了,其响应结果也和直接使用restful去请求是一样的
public class EsClient_index_create {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 创建索引 - 请求对象
CreateIndexRequest request = new CreateIndexRequest("user");
// 发送请求,获取响应
CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT);
//输出创建状态
System.out.println(response.isAcknowledged());
//释放连接
client.close();
}
}
public class EsClient_index_get {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
GetIndexRequest request = new GetIndexRequest("user");
// 发送请求,获取响应
GetIndexResponse response = client.indices().get(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("aliases:"+response.getAliases());
System.out.println("mappings:"+response.getMappings());
System.out.println("settings:"+response.getSettings());
//释放连接
client.close();
}
}
public class EsClient_index_delete {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
DeleteIndexRequest request = new DeleteIndexRequest("user");
// 发送请求,获取响应
AcknowledgedResponse response = client.indices().delete(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println(response.isAcknowledged());
//释放连接
client.close();
}
}
public class EsClient_doc_create {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
IndexRequest request = new IndexRequest();
//设置索引及唯一性标识
request.index("user").id("1001");
// 添加文档数据,数据格式为 JSON 格式
User user = new User("zhangsan", 18, "男");
request.source(JSON.toJSON(user), XContentType.JSON);
// 发送请求,获取响应
IndexResponse response = client.index(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("_index:" + response.getIndex());
System.out.println("_id:" + response.getId());
System.out.println("_result:" + response.getResult());
//释放连接
client.close();
}
}
全量修改即和上面创建文档一样,指定了id的话新插入的就会替换原来的旧值
指定字段修改
public class EsClient_doc_update {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
UpdateRequest request = new UpdateRequest();
//设置索引及唯一性标识
request.index("user").id("1001");
// 设置修改信息
request.doc(XContentType.JSON,"sex","女");
// 发送请求,获取响应
UpdateResponse response = client.update(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("_index:" + response.getIndex());
System.out.println("_id:" + response.getId());
System.out.println("_result:" + response.getResult());
//释放连接
client.close();
}
}
public class EsClient_doc_get {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
GetRequest request = new GetRequest();
//设置索引及唯一性标识
request.index("user").id("1001");
// 发送请求,获取响应
GetResponse response = client.get(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("_index:" + response.getIndex());
System.out.println("_type:" + response.getType());
System.out.println("_id:" + response.getId());
System.out.println("source:" + response.getSourceAsString());
//释放连接
client.close();
}
}
public class EsClient_doc_delete {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
DeleteRequest request = new DeleteRequest();
//设置索引及唯一性标识
request.index("user").id("1001");
// 发送请求,获取响应
DeleteResponse response = client.delete(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println(response.getResult().toString());
//释放连接
client.close();
}
}
批量新增:
public class EsClient_doc_bulkCreate {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
BulkRequest request = new BulkRequest();
//将多个创建请求添加到组合请求中
request.add(new IndexRequest().index("user").id("1001").source(XContentType.JSON,"name","zhangsan"));
request.add(new IndexRequest().index("user").id("1002").source(XContentType.JSON,"name","lisi"));
request.add(new IndexRequest().index("user").id("1003").source(XContentType.JSON,"name","wangwu"));
// 发送请求,获取响应
BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("took:" + response.getTook());
System.out.println("items:" + response.getItems());
//释放连接
client.close();
}
}
批量删除:
public class EsClient_doc_bulkDelete {
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
BulkRequest request = new BulkRequest();
//将多个删除请求添加到组合请求中
request.add(new DeleteRequest().index("user").id("1001"));
request.add(new DeleteRequest().index("user").id("1002"));
request.add(new DeleteRequest().index("user").id("1003"));
// 发送请求,获取响应
BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("took:" + response.getTook());
System.out.println("items:" + response.getItems());
//释放连接
client.close();
}
}
先用批量操作插入一些数据
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求,注意和索引操作的区别
BulkRequest request = new BulkRequest();
//将多个创建请求添加到组合请求中
request.add(new IndexRequest().index("user").id("1001").source(XContentType.JSON,"name","张 三","age",30,"sex","男"));
request.add(new IndexRequest().index("user").id("1002").source(XContentType.JSON,"name","李四","age",40,"sex","女"));
request.add(new IndexRequest().index("user").id("1003").source(XContentType.JSON,"name","王五","age",30,"sex","男"));
request.add(new IndexRequest().index("user").id("1004").source(XContentType.JSON,"name","王五1","age",40,"sex","女"));
request.add(new IndexRequest().index("user").id("1005").source(XContentType.JSON,"name","王五2","age",50,"sex","男"));
request.add(new IndexRequest().index("user").id("1006").source(XContentType.JSON,"name","王五3","age",50,"sex","女"));
request.add(new IndexRequest().index("user").id("1007").source(XContentType.JSON,"name","王五44","age",60,"sex","男"));
// 发送请求,获取响应
BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println("took:" + response.getTook());
System.out.println("items:" + response.getItems());
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchAllQuery());
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchQuery("name","李"));
// sourceBuilder.query(QueryBuilders.termQuery("name","李四"));
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
注意matchQuery和termQuery的区别,matchQuery会对字段进行分词查询
而termQuery不会对字段进行分词,而是完全匹配查询
完全匹配查询也可以用matchParseQuery,所以感觉termQuery没啥用
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchPhraseQuery("name","李四"));
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
注意模糊查询和匹配查询的区别,匹配查询中matchQuery的分词器是对于中文进行分词的,对于英文无用
模糊查询可以设置容错范围,即对于输入的查询内容,在指定容错范围内都可以查出来
比如有三个数据的name【“wangwu",“wangwu1”,“wangwu22”]
用wangwu来查询,容错范围为1可以查出wangwu和wangwu1,容错范围为2可以查出wangwu,wangwu1和wangwu22
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
//模糊查询,及设置模糊查询的容错范围为1
sourceBuilder.query(QueryBuilders.fuzzyQuery("name","wangwu").fuzziness(Fuzziness.ONE));
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchAllQuery());
//查询字段过滤,设置包含字段和排除字段
String[] excludes = {};
String[] includes = {"name", "age"};
sourceBuilder.fetchSource(includes, excludes);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchAllQuery());
//设置分页
sourceBuilder.from(0);
sourceBuilder.size(2);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchAllQuery());
// 根据年龄降序排序
sourceBuilder.sort("age", SortOrder.DESC);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
must(&&)查询
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
// bool多条件查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// must(&&)查询,查询年龄为30并且性别为男
boolQuery.must(QueryBuilders.matchQuery("age",30));
boolQuery.must(QueryBuilders.matchQuery("sex","男"));
sourceBuilder.query(boolQuery);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
should(||)查询
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
// bool多条件查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// should(||)查询,查询年龄为30或40的数据
boolQuery.should(QueryBuilders.matchQuery("age",30));
boolQuery.should(QueryBuilders.matchQuery("age",40));
sourceBuilder.query(boolQuery);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
// age字段的范围查询
RangeQueryBuilder rangeQuery = QueryBuilders.rangeQuery("age");
//查询年龄大于等与30,且小于等于40的
rangeQuery.gte(30).lte(40);
sourceBuilder.query(rangeQuery);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchPhraseQuery("name","李四"));
//构建高亮字段
HighlightBuilder highlightBuilder = new HighlightBuilder();
highlightBuilder.preTags("");//设置标签前缀
highlightBuilder.postTags("");//设置标签后缀
highlightBuilder.field("name");//设置高亮字段
//设置高亮构建对象
sourceBuilder.highlighter(highlightBuilder);
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
SearchHits hits = response.getHits();
System.out.println("took:" + response.getTook());
System.out.println("timeout:" + response.isTimedOut());
System.out.println("total:" + hits.getTotalHits());
System.out.println("MaxScore:" + hits.getMaxScore());
System.out.println("===================>>");
for (SearchHit hit : hits) {
//输出每条查询的结果信息
System.out.println(hit.getSourceAsString());
}
System.out.println("<<=================");
//释放连接
client.close();
}
1.按年龄聚合分组,结果命名为age_group
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
// 按年龄聚合分组,结果命名为age_group
sourceBuilder.aggregation(AggregationBuilders.terms("age_group").field("age"));
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println(response);
//释放连接
client.close();
}
2.取age的最大值,结果命名为maxAge
public static void main(String[] args) throws IOException {
//创建客户端对象
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
// 要发送的某种类型的请求
SearchRequest request = new SearchRequest();
request.indices("user");
// 构建查询的请求体
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
// 按年龄聚合,取最大的age,结果命名为maxAge
sourceBuilder.aggregation(AggregationBuilders.max("maxAge").field("age"));
//设置请求体
request.source(sourceBuilder);
// 发送请求,获取响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
//输出响应结果
System.out.println(response);
//释放连接
client.close();
}
(1) 单机 & 集群
单台 Elasticsearch 服务器提供服务,往往都有最大的负载能力,超过这个阈值,服务器 性能就会大大降低甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中。
除了负载能力,单点服务器也存在其他问题:
配置服务器集群时,集群中节点数量没有限制,大于等于 2 个节点就可以看做是集群了。一 般出于高性能及高可用方面来考虑集群中节点数量都是 3 个以上。
(2) 集群 Cluster
一个集群就是由一个或多个服务器节点组织在一起,共同持有整个的数据,并一起提供 索引和搜索功能。一个 Elasticsearch 集群有一个唯一的名字标识,这个名字默认就 是”elasticsearch”。这个名字是重要的,因为一个节点只能通过指定某个集群的名字,来加入 这个集群。
(3) 节点 Node
集群中包含很多服务器,一个节点就是其中的一个服务器。作为集群的一部分,它存储 数据,参与集群的索引和搜索功能。
一个节点也是由一个名字来标识的,默认情况下,这个名字是一个随机的漫威漫画角色 的名字,这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的,因为在 这个管理过程中,你会去确定网络中的哪些服务器对应于 Elasticsearch 集群中的哪些节点。
一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下,每个节点 都会被安排加入到一个叫做“elasticsearch”的集群中,这意味着,如果你在你的网络中启动了 若干个节点,并假定它们能够相互发现彼此,它们将会自动地形成并加入到一个叫做 “elasticsearch”的集群中。
在一个集群里,只要你想,可以拥有任意多个节点。而且,如果当前你的网络中没有运 行任何 Elasticsearch 节点,这时启动一个节点,会默认创建并加入一个叫做“elasticsearch”的 集群,即单节点也默认是集群。
(1)创建 elasticsearch-cluster 文件夹,在内部复制三个 elasticsearch 服务
(2)修改集群文件目录中每个节点的 config/elasticsearch.yml 配置文件
#节点 1 的配置信息:
#集群名称,节点之间要保持一致
cluster.name: my-elasticsearch
#节点名称,集群内要唯一
node.name: node-1001
node.master: true
node.data: true
#ip 地址
network.host: localhost
#http 端口
http.port: 1001
#tcp 监听端口
transport.tcp.port: 9301
# 1001作为主节点,所以不用写下面的集群发现
#discovery.seed_hosts: ["localhost:9301", "localhost:9302","localhost:9303"]
#discovery.zen.fd.ping_timeout: 1m
#discovery.zen.fd.ping_retries: 5
#集群内的可以被选为主节点的节点列表
#cluster.initial_master_nodes: ["node-1", "node-2","node-3"]
#跨域配置
#action.destructive_requires_name: true
http.cors.enabled: true
http.cors.allow-origin: "*"
#节点 2 的配置信息:
#集群名称,节点之间要保持一致
cluster.name: my-elasticsearch
#节点名称,集群内要唯一
node.name: node-1002
node.master: true
node.data: true
#ip 地址
network.host: localhost
#http 端口
http.port: 1002
#tcp 监听端口
transport.tcp.port: 9302
discovery.seed_hosts: ["localhost:9301", "localhost:9302","localhost:9303"]
discovery.zen.fd.ping_timeout: 1m
discovery.zen.fd.ping_retries: 5
#集群内的可以被选为主节点的节点列表
#cluster.initial_master_nodes: ["node-1", "node-2","node-3"]
#跨域配置
#action.destructive_requires_name: true
http.cors.enabled: true
http.cors.allow-origin: "*"
#节点 3 的配置信息:
#集群名称,节点之间要保持一致
cluster.name: my-elasticsearch
#节点名称,集群内要唯一
node.name: node-1003
node.master: true
node.data: true
#ip 地址
network.host: localhost
#http 端口
http.port: 1003
#tcp 监听端口
transport.tcp.port: 9303
#候选主节点的地址,在开启服务后可以被选为主节点
discovery.seed_hosts: ["localhost:9301", "localhost:9302","localhost:9303"]
discovery.zen.fd.ping_timeout: 1m
discovery.zen.fd.ping_retries: 5
#集群内的可以被选为主节点的节点列表
#cluster.initial_master_nodes: ["node-1", "node-2","node-3"]
#跨域配置
#action.destructive_requires_name: true
http.cors.enabled: true
http.cors.allow-origin: "*"
(3)启动集群
(4)测试使用集群
向集群中的 node-1001 节点增加索引
向集群中的 node-1002 节点查询索引
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ipxiwq9G-1650284771667)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220413225840237.png)]
(1)下载Linux版的ES,上传到 /opt
tar -zxvf elasticsearch-7.8.0-linux-x86_64.tar.gz
cp /opt/elasticsearch-7.8.0 /usr/local/elasticSearch
(2)创建用户
因为安全问题,Elasticsearch 不允许 root 用户直接运行,所以要在每个节点中创建新用 户,在 root 用户中创建新用户es,而且注意给该用户设置复杂些的密码,否则容易被入侵
useradd es #新增 es 用户
passwd 密码 #为 es 用户设置密码
chown -R es:es /usr/local/elasticSearch #修改文件夹所有者,将文件权限交给es
userdel -r es #如果错了,可以删除再加
bug记录:如果直接用root用户去启动es,会报错,需要先切换为es用户再去启动;
如果再次报错,可能是权限未成功给予,切换root用户再次执行chown -R es:es /usr/local/elasticSearch赋予权限,再切换回来
(3)修改配置文件
1.修改es配置文件
vim /usr/local/elasticSearch/config/elasticsearch.yml
# 加入如下配置
cluster.name: elasticsearch
node.name: node-1
network.host: 0.0.0.0
http.port: 9200
cluster.initial_master_nodes: ["node-1"]
2.修改系统配置文件,赋予es用户相关设置
vim /etc/security/limits.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
vim /etc/security/limits.d/20-nproc.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
# 操作系统级别对每个用户创建的进程数的限制
* hard nproc 4096
# 注:* 带表 Linux 所有用户名称
vim /etc/sysctl.conf
# 在文件中增加下面内容
# 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
vm.max_map_count=655360
重新加载
sysctl -p
修改es的jvm配置
vim /usr/local/elasticSearch/config/jvm.options
将赋予jvm的内存改小一些
(4)开启阿里云安全组,防火墙开放9200端口
开放防火墙端口
firewall-cmd --add-port=9200/tcp --permanent
firewall-cmd --reload #重启防火墙
(5)测试连接
准备三台服务器,es的解压等步骤和单机一样;
创建新用户和修改相应的系统配置也一样,不同的地方只在于es配置文件的修改
对应修改三个节点的配置文件即可,需修改的不同处已在注解中标出
# 加入如下配置
#集群名称
cluster.name: cluster-es
#节点名称,每个节点的名称不能重复,需修改
node.name: node-1
#ip 地址,每个节点的地址不能重复,需修改
network.host: linux1
#是不是有资格主节点
node.master: true
node.data: true
http.port: 9200
# head 插件需要这打开这两个配置
http.cors.allow-origin: "*"
http.cors.enabled: true
http.max_content_length: 200mb
#es7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master
cluster.initial_master_nodes: ["node-1"]
#es7.x 之后新增的配置,节点发现,要加入集群的节点写入
discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"]
gateway.recover_after_nodes: 2
network.tcp.keep_alive: true
network.tcp.no_delay: true
transport.tcp.compress: true
#集群内同时启动的数据任务个数,默认是 2 个
cluster.routing.allocation.cluster_concurrent_rebalance: 16
#添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个
cluster.routing.allocation.node_concurrent_recoveries: 16
#初始化数据恢复时,并发恢复线程的个数,默认 4 个
cluster.routing.allocation.node_initial_primaries_recoveries: 16
启动集群后测试,当然咱这台小破服务器做不到了
(1)索引
一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的 索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必 须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时 候,都要使用到这个名字。在一个集群中,可以定义任意多的索引。
能搜索的数据必须索引,这样的好处是可以提高查询速度,比如:新华字典前面的目录 就是索引的意思,目录可以提高查询速度。
Elasticsearch 索引的精髓:一切设计都是为了提高搜索的性能。
(2)类型(Type)
从ES 7x版本之后就废弃了
(3)文档(Document)
一个文档是一个可被索引的基础信息单元,也就是一条数据 。比如:你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个 订单的一个文档。文档以 JSON(Javascript Object Notation)格式来表示,而 JSON 是一个 到处存在的互联网数据交互格式。
在一个 index/type 里面,你可以存储任意多的文档。
(4)字段(Field)
相当于是数据表的字段,对文档数据根据不同属性进行的分类标识。
(5)映射(Mapping)
mapping 是处理数据的方式和规则方面做一些限制,如:某个字段的数据类型、默认值、 分析器、是否被索引等等。这些都是映射里面可以设置的,其它就是处理 ES 里面数据的一 些使用规则设置也叫做映射,按着最优规则处理数据对性能提高很大,因此才需要建立映射, 并且需要思考如何建立映射才能对性能更好。
(6)分片(Shards)
一个索引可以存储超出单个节点硬件限制的大量数据。比如,一个具有 10 亿文档数据 的索引占据 1TB 的磁盘空间,而任一节点都可能没有这样大的磁盘空间。或者单个节点处 理搜索请求,响应太慢。为了解决这个问题,Elasticsearch 提供了将索引划分成多份的能力, 每一份就称之为分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分 片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点 上。
分片很重要,主要有两方面的原因:
容易被混淆的概念是,一个 Lucene 索引 我们在 Elasticsearch 称作 分片 。 一个 Elasticsearch 索引 是分片的集合。 当Elasticsearch 在索引中搜索的时候, 他发送查询 到每一个属于索引的分片(Lucene 索引),然后合并每个分片的结果到一个全局的结果集。
(7)副本(Replicas)
在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于 离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是 强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复 制分片(副本)。
复制分片之所以重要,有两个主要原因:
(8)分配(Allocation)
将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qfbbzaG4-1650284771668)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220414152423523.png)]
一个运行中的 Elasticsearch 实例称为一个节点,而集群是由一个或者多个拥有相同 cluster.name 配置的节点组成, 它们共同承担数据和负载的压力。当有节点加入集群中或者 从集群中移除节点时,集群将会重新平均分布所有的数据(即分片与副本)。
当一个节点被选举成为主节点时, 它将负责管理集群范围内的所有变更,例如增加、 删除索引,或者增加、删除节点等。 而主节点并不需要涉及到文档级别的变更和搜索等操作,所以当集群只拥有一个主节点的情况下,即使流量的增加它也不会成为瓶颈。
作为用户,我们可以将请求发送到集群中的任何节点 ,包括主节点。 每个节点都知道 任意文档所处的位置,并且能够将我们的请求直接转发到存储我们所需文档的节点。 无论 我们一开始将请求发送到哪个节点,这个节点都能作为协调节点,它都能负责从各个包含我们所需文档的节点收集回数据,并将 最终结果返回給客户端。 Elasticsearch 对这一切的管理都是透明的。
准备浏览器插件,便于可视化观察
下载插件elasticsearch-head-master,解压,进入crx目录
复制es-head.crx,得到一个副本,将其后缀改为rar,再解压
将插件导入浏览器,在浏览器的拓展程序处选择 加载已解压的拓展程序
我们在包含一个空节点的集群内创建名为 users 的索引,为了演示目的,我们将分配 3 个主分片和一份副本(每个主分片拥有一个副本分片)
{
"settings" : {
"number_of_shards" : 3,
"number_of_replicas" : 1
}
}
通过 elasticsearch-head 插件查看集群情况;
我们的集群现在是拥有一个索引的单节点集群。所有 3 个主分片都被分配在 node-1 。
当集群中只有一个节点在运行时,意味着会有一个单点故障问题——没有冗余。 幸运 的是,我们只需再启动一个节点即可防止数据丢失。当你在同一台机器上启动了第二个节点 时,只要它和第一个节点有同样的 cluster.name 配置,它就会自动发现集群并加入到其中。 但是在不同机器上启动节点的时候,为了加入到同一集群,你需要配置一个可连接到的单播 主机列表。之所以配置为使用单播发现,以防止节点无意中加入集群。只有在同一台机器上 运行的节点才会自动组成集群。
如果启动了第二个节点,我们的集群将会拥有两个节点 : 所有主分片和副本分 片都已被分配
怎样为我们的正在增长中的应用程序按需扩容呢?当启动了第三个节点,我们的集群将 会拥有三个节点 : 为了分散负载而对分片进行重新分配
但是如果我们想要扩容超过 6 个节点怎么办呢?
主分片的数目在索引创建时就已经确定了下来。实际上,这个数目定义了这个索引能够 存储 的最大数据量。(实际大小取决于你的数据、硬件和使用场景。) 但是,读操作—— 搜索和返回数据——可以同时被主分片 或 副本分片所处理,所以当你拥有越多的副本分片 时,也将拥有越高的吞吐量。
在运行中的集群上是可以动态调整副本分片数目的,我们可以按需伸缩集群。让我们把 副本数从默认的 1 增加到 2
{
"number_of_replicas" : 2
}
users 索引现在拥有 9 个分片:3 个主分片和 6 个副本分片。 这意味着我们可以将集群 扩容到 9 个节点,每个节点上一个分片。相比原来 3 个节点时,集群搜索性能可以提升 3 倍。(当然了,这是对于集群包含9个节点而言,即一台服务器对应一个节点,每个分片就拥有这个节点的全部资源)
而我们目前只有三个节点,提升了副本量也只是均分到三个节点上而已
如果只是在相同节点数目的集群上增加更多的副本分片并不能提高性能,因为每 个分片从节点上获得的资源会变少。 你需要增加更多的硬件资源来提升吞吐量。 但是更多的副本分片数提高了数据冗余量:按照上面的节点配置,我们可以在失去 2 个节点 的情况下不丢失任何数据。
我们关闭第一个节点,这时集群的状态为:只剩下后面两个节点
我们关闭的节点是一个主节点。而集群必须拥有一个主节点来保证正常工作,所以发生 的第一件事情就是选举一个新的主节点: Node 2 。在我们关闭 Node 1 的同时也失去了主分片 1 和 2 ,并且在缺失主分片的时候索引也不能正常工作。
幸运的是,在其它节点上存在着这两个主分片的完整副本, 所以新的主节点立即将这 些分片在 Node 2 和 Node 3 上对应的副本分片提升为主分片, 此时集群的状态将会为 yellow。这个提升主分片的过程是瞬间发生的,如同按下一个开关一般。
修改node 1的配置文件,重新加入集群试试(原来node 1作为主机无需配置集群,现在作为从机重新加入需要配置)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tAVVwjDS-1650284771674)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220414160049648.png)]
集群可以将缺失的副本分片再次进行分配,那么集群的状态也将恢复成之前的状态。 如果 Node 1 依然拥有着之前的分片,它将尝试去重用它们, 同时仅从主分片复制发生了修改的数据文件。和之前的集群相比,只是 Master 节点切换了。
bug记录:在windows下一开始master节点无需配置集群发现,只需要配置从机即可;如果配置了反而会启动失败;
但发生故障后,产生了新的主机,重新启动作为从机加入就需要配置
当向索引插入一个文档的时候,文档会被存储到某个主分片中。 Elasticsearch 如何知道一个 文档应该存放到哪个主分片中呢?当我们创建文档时,它如何决定这个文档应当被存储在分片 1 还是分片 2 中呢?那我们要查询某个数据时又该去哪个分片查找呢?
当我们要插入或查询一条数据时,会向集群发送请求,这个请求可以交给任何一个节点,这个节点将作为协调节点,根据公式找到我们数据对应的分片;而我们的协调节点知道任意分片的所处节点位置,可以进行请求转发,得到结果后对客户端发回响应
这个过程是根据下面这个公式决定的:
// shard = hash(routing) % number_of_primary_shards
// routing 是一个可变值,默认是文档的 _id ,也可以设置成一个自定义的值。
// routing 通过 hash 函数生成一个数字,然后这个数字再除以 number_of_primary_shards (主分片的数量) 得到结果
这就解释了为什么我们要在创建索引的时候就确定好主分片的数量 并且永远不会改变 这个数量:因为如果数量变化了,那么所有之前路由的值都会无效,文档也再也找不到了。
所有的文档 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一 个叫做 routing 的路由参数 ,通过这个参数我们可以自定义文档到分片的映射。一个自定 义的路由参数可以用来确保所有相关的文档——例如所有属于同一个用户的文档——都被 存储到同一个分片中。
假如我们有一个集群由三个节点组成。 它包含一个叫 user 的索引,有三个主分片, 每个主分片有一个副本分片。相同分片的副本不会放在同一节点。
我们可以发送请求到集群中的任一节点。 每个节点都有能力处理任意请求,这个节点称作协调节点。 每个节点都知道集群中任一文档位置,所以可以直接将请求转发到需要的节点上。
当发送请求的时候, 为了扩展负载,更好的做法是轮询集群中所有的节点(即轮询不同的节点作为协调节点)。
在客户端收到成功响应时,文档变更已经在主分片和所有副本分片执行完成,变更是安全的。 有一些可选的请求参数允许您影响这个过程,可能以数据安全为代价提升性能(即通过参数设置可以达到未完成所有的副本写时即可允许客户端对新数据进行查)。这些选项很 少使用,因为 Elasticsearch 已经很快,但是为了完整起见,请参考下面表格:
参数 | 说明 |
---|---|
consistency | consistency,即一致性。在默认设置下,即使仅仅是在试图执行一个_写_操作之 前,主分片都会要求 必须要有 规定数量(quorum)(或者换种说法,也即必须要 有大多数)的分片副本处于活跃可用状态,才会去执行_写_操作(其中分片副本 可以是主分片或者副本分片)。这是为了避免在发生网络分区故障(network partition)的时候进行_写_操作,进而导致数据不一致。规定数量_即: int( (primary + number_of_replicas) / 2 ) + 1 consistency 参数的值可以设为 one (只要主分片状态 ok 就允许执行_写_操 作),all(必须要主分片和所有副本分片的状态没问题才允许执行_写_操作), 或 quorum 。默认值为 quorum , 即大多数的分片副本状态没问题就允许执行_写 操作。 注意,规定数量 的计算公式中 number_of_replicas 指的是在索引设置中的设定 副本分片数,而不是指当前处理活动状态的副本分片数。如果你的索引设置中指定了当前索引拥有三个副本分片,那规定数量的计算结果即: int( (primary + 3 replicas) / 2 ) + 1 = 3 如果此时你只启动两个节点,那么处于活跃状态的分片副本数量就达不到规定数 量,也因此您将无法索引和删除任何文档。 |
timeout | 如果没有足够的副本分片会发生什么? Elasticsearch 会等待,希望更多的分片出 现。默认情况下,它最多等待 1 分钟。 如果你需要,你可以使用 timeout 参数 使它更早终止: 100 100 毫秒,30s 是 30 秒。 |
如果我们插入的时候使用了上面提到的参数;在文档被检索时,已经被索引的文档可能已经存在于主分片上但是还没有复制到副本分片。 在这种情况下,副本分片可能会报告文档不存在,但是主分片可能成功返回文档。 一 旦索引请求成功返回给用户,文档在主分片和副本分片都是可用的。
更新一个文档结合了先前说明的读取和写入流程:
mget 和 bulk API 的模式类似于单文档模式。区别在于协调节点知道每个文档存在于 哪个分片中。它将整个多文档请求分解成 多个单文档请求,并且将这些请求并行转 发到每个参与节点。协调节点一旦收到来自每个节点的应答,就将每个节点的响应收集整理成单个响应,返 回给客户端
Elasticsearch 使用一种称为倒排索引的结构,它适用于快速的全文搜索。
所谓的正向索引,就是搜索引擎会将待搜索的文件都对应一个文件 ID,搜索时将这个 ID 和搜索关键字进行对应,形成 K-V 对,然后对关键字进行统计计数
但是每个文档对应的word数量都是巨大的,这样的索引结构根本无法满足 实时返回排名结果的要求。所以,搜索引擎会将正向索引重新构建为倒排索引,即把文件 ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件, 这些文件中都出现这个关键词。
这样我们就可以通过关键字找到对应的文档id,再通过id,找到所有对应的具体文档内容
早期的全文检索会为整个文档集合建立一个很大的倒排索引并将其写入到磁盘。 一旦新的倒排索引就绪,旧的就会被其替换,这样最近的变化便可以被检索到。
倒排索引被写入磁盘后是 不可改变 的:它永远不会修改。
其好处在于:
当然,一个不变的索引也有不好的地方。主要事实是它是不可变的! 你不能修改它。如 果你需要让一个新的文档 可被搜索,你需要重建整个索引。这要么对一个索引所能包含的 数据量造成了很大的限制,要么对索引可被更新的频率造成了很大的限制。
如何在保留不变性的前提下实现倒排索引的更新?
通过增加新的补充索引来反映新的修改,而不是直接重写整 个倒排索引。每一个倒排索引都会被轮流查询到,从最早的开始查询完后再对结果进行合并。
Elasticsearch 基于 Lucene, 引入了按段搜索的概念。 每一 段 本身都是一个倒排索引
在 Lucene 中除了段的概念外, 还增加了提交点的概念 ( 一 个列出了所有已知段的文件)
按段搜索会以如下流程执行:
新创建的文档存入缓存,并在内存中形成新的倒排索引和新的提交点
一段时间后, 缓存被提交
新的段被开启,让它包含的文档可见以被搜索
内存缓存被清空,等待接收新的文档
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3DkV94oP-1650284771679)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220416160153869.png)]
当一个查询被触发,所有已知的段按顺序被查询。然后对所有段的结果进行聚合,以保证每个词和每个文档的关联都被准确计算。
段是不可改变的,所以既不能从把文档从旧的段中移除,也不能修改旧的段来进行反映文档的更新。 取而代之的是,每个提交点会包含一个 .del 文件,文件中会列出这些被删除文档 的段信息(即逻辑删除)。
当一个文档被 “删除” 时,它实际上只是在 .del 文件中被 标记 删除。一个被标记删除的文档仍然可以被查询匹配到, 但它会在最终结果被返回前从结果集中移除。
文档更新也是类似的操作方式:当一个文档被更新时,旧版本文档被标记删除,文档的新版本被索引到一个新的段中。 可能两个版本的文档都会被一个查询匹配到,但被删除的那个 旧版本文档在合并结果集时会被移除。
随着按段搜索的发展,一个新的文档从创建倒排索引到可被搜索的延迟显著降低了。新文档在几分钟之内即可被检索,但这样还是不够快。磁盘在这里成为了瓶颈。提交 (Commiting)一个新的段到磁盘需要一个 fsync 来确保段被物理性地写入磁盘,这样在断电的时候就不会丢失数据。 但是 fsync 操作代价很大; 如果每次创建一个新的倒排索引(一个新的段)都去执行一 次的话会造成很大的性能问题。
在内存和磁盘之间存在文件系统缓存。在缓冲区中的文档,形成新的的段(倒排索引)后, 这里新段会被先写入到文件系统缓存,这步代价会比较低,稍后再将缓存区中的文档和新段刷新到磁盘,这一步代价比较高。
只要文件已经在文件系统缓存中, 就可以像其它文件一样被打开和读取了。
Lucene 允许新段被写入和打开,使其包含的文档在未进行一次完整提交时便对搜索可见。 这种方式比进行一次提交代价要小得多,并且在不影响性能的前提下可以被频繁地执行。
打开和和写入一个新段的这个过程称为refresh,默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说 Elasticsearch 是 近 实时搜索: 文档的变化 并不是立即对搜索可见,但会在一秒之内变为可见。
fsync 把数据从文件系统缓存刷到硬盘,这个过程称为flush。如果当前内存中的数据还未来的及刷入磁盘,断点就会导致数据丢失。
Elasticsearch 增加了一个 translog ,或者叫事务日志,在每一次对 Elasticsearch 进行 操作时均进行了日志记录。
日志流程如下:
translog 的目的是保证操作不会丢失,在文件被 fsync 到磁盘前,内存中的文件在重启 之后就会丢失。
默认 translog 是每 5 秒被 fsync 刷新到硬盘, 或者在每次写请求完成之 后执行(index, delete, update, bulk),又或者translog文件的大小达到一定程度。
这个过程在主分片和复制分片都会发生。这意味着在整个请求被 fsync 到主分片和复制分片的 translog 之前,你的客户端不会 得到一个 200 OK 响应。
由于 refresh 每秒会创建一个新的段 ,这样会导致短时间内的段数量暴增。而段 数目太多会带来较大的麻烦。 每一个段都会消耗文件句柄、内存和 cpu 运行周期。更重要 的是,每个搜索请求都必须轮流检查每个段;所以段越多,搜索也就越慢。
Elasticsearch 通过在后台进行段合并来解决这个问题。小的段被合并到大的段,然后这些大 的段再被合并到更大的段。
段合并的时候会将那些旧的已删除文档从文件系统中清除(物理删除)。被删除的文档(或被更新文档的 旧版本)不会被拷贝到新的大段中。
段合并过程如下:
分析 包含下面的过程:
分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里:
Elasticsearch 附带了可以直接使用的预包装的分析器。
下面列出最重要的分 析器。为了证明它们的差异,我们看看每个分析器会从下面的字符串得到哪些词条:
“Set the shape to semi-transparent by calling set_trans(5)”
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WJSFlZ1Q-1650284771680)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220416194403453.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OA3QFpLB-1650284771680)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220416194416541.png)]
有些时候很难理解分词的过程和实际被存储到倒排索引中的词条,我们可以使用 analyze API 来看文本是如何被分析的。 在消息体里,指定分析器和要分析的文本。
GET http://localhost:9200/_analyze
{
"analyzer": "standard",
"text": "Text to analyze"
}
token 是实际存储到索引中的词条。
position 指明词条在原始文本中出现的位置。
start_offset 和 end_offset 指明字符在原始字符串中的位置。
当Elasticsearch在你的文档中检测到一个新的字符串域,它会自动将其设置为一个全文字符串域,使用 标准 分析器对它进行分析。
但我们有时希望使用自己指定的分析器,只需要在请求时指定即可。
我们来看看默认的分词器对中文的分词效果
// GET http://localhost:9200/_analyze
{
"text":"测试单词"
}
可以发现ES 的默认分词器无法识别中文中测试、单词这样的词汇,而是简单的将每个字拆完分为一 个词;这样的结果显然不符合我们的使用要求,所以我们需要下载 ES 对应版本的中文分词器(即IK分词器)。
// GET http://localhost:9200/_analyze
{
"text":"测试单词",
"analyzer":"ik_max_word"
}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qBLEQxqk-1650284771681)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220416210414781.png)]
// GET http://localhost:9200/_analyze
{
"text":"弗雷尔卓德",
"analyzer":"ik_max_word"
}
因为IK分词器中没有这个对应的词汇,所以只会将其一个一个字拆分;
但我们自己知道它是一个完整的名词,所以我们可以自己添加词汇。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wrq5gf5h-1650284771681)(https://gitee.com/GOV_D/my-picture/raw/master/MyPicture/image-20220416211038858.png)]
感觉没啥卵用,需要去看尚硅谷笔记
当我们使用 index API 更新文档 ,可以一次性读取原始文档,做我们的修改,然后重新索引 整个文档(为该文档重新建立倒排索引) 。
最后的索引请求将获胜,无论最后哪一个文档被索引,都将被唯一存储在 Elasticsearch 中。如果其他人同时更改这个文档,他们的更改将丢失。(说人话就是并发更新的时候,后处理的更新将被保留,之前的更新失效)4
这种方法被关系型数据库广泛使用,它假定有变更冲突可能发生,因此阻塞访问资源以防止冲突(加锁)。 一个典型的例子是读取一行数据之前先将其锁住,确保只有放置锁的线程能够 对这行数据进行修改。
这种方法假定冲突是不可能发生的,并且不会阻塞正在尝试的操作。 然而,如果源数据在读写当中被修改(版本改变),更新将会失败。应用程序接下来将决定该如何 解决冲突。 例如可以重试更新、使用新的数据、或者将相关情况报告给用户。
我们知道每个文档都有一个 _version (版本)号,当文档被修改时版本号递增。
我们可以利用 version 号来确保 应用中相互冲突的变更不会导致数据丢失。我们通过 指定想要修改文档的 version 号来达到这个目的。 如果该版本不是当前版本号,我们的请 求将会失败。
举例:我们插入一个数据
// put http://localhost:9200/shooping/_doc/1001
{
"title":"小米手机",
"category":"小米",
"images":"http://www.gulixueyuan.com/xm.jpg",
"price":3999.00
}
使用乐观锁的话,我们在对文档进行操作时会带上版本号;
老的版本 es 使用 version,但是新版本不支持了,会报出错误,提示我们用 if_seq_no 和 if_primary_term
这两个版本号作为参数携带,应该和更新之前的版本一致才能操作成功,如果是更新操作,成功后版本号更新
现在应该如下使用:
// post http://localhost:9200/shooping/_update/1001?if_seq_no=0&if_primary_term=1
{
"doc":{
"title":"华为手机"
}
}
外部版本号的处理方式和我们之前讨论的内部版本号的处理方式有些不同, Elasticsearch 不是检查当前 _version 和请求中指定的版本号是否相同, 而是检查当前 _version 是否 小于 指定的版本号(即参数中携带的版本号)。 如果指定版本号大于当前_version;请求成功,外部的版本号作为文档的新 _version 进行存储。
// post http://localhost:9200/shooping/_doc/1001?version=3&version_type=external
{
"doc":{
"title":"小米手机"
}
}
Kibana 是一个免费且开放的用户界面,能够让你对 Elasticsearch 数据进行可视化,并 让你在 Elastic Stack 中进行导航。你可以进行各种操作,从跟踪查询负载,到理解请求如 何流经你的整个应用,都能轻松完成。
下载地址:https://artifacts.elastic.co/downloads/kibana/kibana-7.8.0-windows-x86_64.zip
解压缩下载的 zip 文件
修改 config/kibana.yml 文件
# 默认端口
server.port: 5601
# ES 服务器的地址
elasticsearch.hosts: ["http://localhost:9200"]
# 索引名
kibana.index: ".kibana"
# 支持中文
i18n.locale: "zh-CN"
Windows 环境下执行 bin/kibana.bat 文件
通过浏览器访问 : http://localhost:5601
Spring Data 是一个用于简化数据库、非关系型数据库、索引库访问,并支持云服务的 开源框架。其主要目标是使得对数据的访问变得方便快捷,并支持 map-reduce 框架和云计 算数据服务。 Spring Data 可以极大的简化 JPA(Elasticsearch„)的写法,可以在几乎不用 写实现的情况下,实现对数据的访问和操作。除了 CRUD 外,还包括如分页、排序等一些 常用的功能。
版本对应:
一定要注意版本对应,否则一些方法不可用;
构建一个普通maven项目,添加依赖
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
# 一定要注意版本对应
<parent>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-starter-parentartifactId>
<version>2.3.12.RELEASEversion>
<relativePath/>
parent>
<modelVersion>4.0.0modelVersion>
<groupId>com.govd.esgroupId>
<artifactId>springboot-ESartifactId>
<version>1.0version>
<properties>
<maven.compiler.source>14maven.compiler.source>
<maven.compiler.target>14maven.compiler.target>
properties>
<dependencies>
<dependency>
<groupId>org.projectlombokgroupId>
<artifactId>lombokartifactId>
dependency>
<dependency>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-starter-data-elasticsearchartifactId>
dependency>
<dependency>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-devtoolsartifactId>
<scope>runtimescope>
<optional>trueoptional>
dependency>
<dependency>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-starter-testartifactId>
<scope>testscope>
dependency>
<dependency>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-testartifactId>
dependency>
<dependency>
<groupId>junitgroupId>
<artifactId>junitartifactId>
dependency>
<dependency>
<groupId>org.springframeworkgroupId>
<artifactId>spring-testartifactId>
dependency>
dependencies>
project>
在 resources 目录中增加 application.properties 文件
# es 服务地址
elasticsearch.host=127.0.0.1
# es 服务端口
elasticsearch.port=9200
# 配置日志级别,开启 debug 日志
logging.level.com.atguigu.es=debug
@Data
@NoArgsConstructor
@AllArgsConstructor
@Document(indexName = "product", shards = 3, replicas = 1) //项目启动时如果对应的index不存在,则自动创建
public class Product {
@Id
private Long id;//商品唯一标识
@Field(type = FieldType.Text, analyzer = "ik_max_word")
private String title;//商品名称
@Field(type = FieldType.Keyword)
private String category;//分类名称
@Field(type = FieldType.Double)
private Double price;//商品价格
@Field(type = FieldType.Keyword, index = false)
private String images;//图片地址
}
/**
* type : 字段数据类型
* analyzer : 分词器类型
* index : 是否索引(默认:true)
* Keyword : 短语,不进行分词
* text:文本,进行分词
*/
@Configuration
public class ElasticsearchConfig extends AbstractElasticsearchConfiguration {
@Value("${elasticsearch.host}")
private String host;
@Value("${elasticsearch.port}")
private Integer port;
@Override
public RestHighLevelClient elasticsearchClient() {
RestClientBuilder builder = RestClient.builder(new HttpHost(host, port));
RestHighLevelClient restHighLevelClient = new RestHighLevelClient(builder);
return restHighLevelClient;
}
}
@Repository
public interface ProductDao extends ElasticsearchRepository<Product,Long> {
//ElasticsearchRepository T对应实体类,ID对应主键的类型
}
@SpringBootTest
@RunWith(SpringRunner.class) //允许测试类使用自动注入的bean
public class SpringDataESIndexTest {
//注入 ElasticsearchRestTemplate
@Autowired
private ElasticsearchRestTemplate elasticsearchRestTemplate;
//创建索引并增加映射配置,项目启动时实体类对应的索引不存在则会自动创建
@Test
public void createIndex(){
System.out.println("index创建完毕");
}
//删除索引
@Test
public void deleteIndex(){
boolean flag = elasticsearchRestTemplate.deleteIndex(Product.class);
System.out.println("删除索引 = "+flag );
}
}
@SpringBootTest
@RunWith(SpringRunner.class)
public class SpringDataESProductDaoTest {
@Autowired
private ProductDao productDao;
/**
* 新增
*/
@Test
public void save(){
Product product = new Product();
product.setId(2L);
product.setTitle("华为手机");
product.setCategory("手机");
product.setPrice(2999.0);
product.setImages("http://www.atguigu/hw.jpg");
productDao.save(product);
}
//修改
@Test
public void update(){
Product product = new Product();
product.setId(1L);
product.setTitle("小米 2 手机");
product.setCategory("手机");
product.setPrice(9999.0);
product.setImages("http://www.atguigu/xm.jpg");
productDao.save(product);
}
//根据 id 查询
@Test
public void findById(){
Product product = productDao.findById(1L).get();
System.out.println(product);
}
//查询所有
@Test
public void findAll(){
Iterable<Product> products = productDao.findAll();
for (Product product : products) {
System.out.println(product);
}
}
//删除
@Test
public void delete(){
Product product = new Product();
product.setId(1L);
productDao.delete(product);
}
//批量新增
@Test
public void saveAll(){
List<Product> productList = new ArrayList<>();
for (int i = 0; i < 10; i++) {
Product product = new Product();
product.setId(Long.valueOf(i));
product.setTitle("["+i+"]小米手机");
product.setCategory("手机");
product.setPrice(1999.0+i);
product.setImages("http://www.atguigu/xm.jpg");
productList.add(product);
}
productDao.saveAll(productList);
}
//分页查询
@Test
public void findByPageable(){
//设置排序(排序方式,正序还是倒序,排序的 id)
Sort sort = Sort.by(Sort.Direction.DESC,"id");
int currentPage=0;//当前页,第一页从 0 开始,1 表示第二页
int pageSize = 5;//每页显示多少条
//设置查询分页
PageRequest pageRequest = PageRequest.of(currentPage, pageSize,sort);
//分页查询
Page<Product> productPage = productDao.findAll(pageRequest);
for (Product Product : productPage.getContent()) {
System.out.println(Product);
}
}
}
@SpringBootTest
@RunWith(SpringRunner.class)
public class SpringDataESProductDaoTest {
@Autowired
private ProductDao productDao;
/**
* match 查询
* search(termQueryBuilder) 调用搜索方法,参数查询构建器对象
*/
@Test
public void termQuery(){
MatchQueryBuilder queryBuilder = QueryBuilders.matchQuery("title", " 小米");
Iterable<Product> products = productDao.search(queryBuilder);
for (Product product : products) {
System.out.println(product);
}
}
/**
* match 查询加分页
*/
@Test
public void termQueryByPage(){
int currentPage= 0 ;
int pageSize = 5;
//设置查询分页
PageRequest pageRequest = PageRequest.of(currentPage, pageSize);
MatchQueryBuilder queryBuilder = QueryBuilders.matchQuery("title", " 小米");
Iterable<Product> products = productDao.search(queryBuilder,pageRequest);
for (Product product : products) {
System.out.println(product);
}
}
}
其他的操作对应基础Java操作ES,相应修改方法即可。
Elasticsearch 的基础是 Lucene,所有的索引和文档数据是存储在本地的磁盘中,具体的 路径可在 ES 的配置文件…/config/elasticsearch.yml 中配置,如下:
# Path to directory where to store the data (separate multiple locations by comma):
#
#path.data: /path/to/data
#
# Path to log files:
#
#path.logs: /path/to/logs
#
磁盘在现代服务器上通常都是瓶颈。Elasticsearch 重度使用磁盘,你的磁盘能处理的吞吐量 越大,你的节点就越稳定。这里有一些优化磁盘 I/O 的技巧:
分片和副本的设计为 ES 提供了支持分布式和故障转移的特性,但并不意味着分片和 副本是可以无限分配的。而且索引的分片完成分配后由于索引的路由机制,我们是不能重新 修改分片数的。
一个业务索引具体需要分配多少分片可能需要架构师和技术人员对业务的增长有个预先的判断,横向扩展应当分阶段进行。为下一阶段准备好足够的资源。 只有当你进入到下 一个阶段,你才有时间思考需要作出哪些改变来达到这个阶段。
一般来说,我们遵循一些原则:
对于节点瞬时中断的问题,默认情况,集群会等待一分钟来查看节点是否会重新加入, 如果这个节点在此期间重新加入,重新加入的节点会保持其现有的分片数据,不会触发新的 分片分配。这样就可以减少 ES 在自动再平衡可用分片时所带来的极大开销。
通过修改参数 delayed_timeout ,可以延长再均衡的时间,可以全局设置也可以在索引 级别进行修改:
// PUT /_all/_settings
{
"settings": {
"index.unassigned.node_left.delayed_timeout": "5m"
}
}
当我们查询文档的时候,Elasticsearch 如何知道一个文档应该存放到哪个分片中呢?它 其实是通过下面这个公式来计算出来:
shard = hash(routing) % number_of_primary_shards
routing 默认值是文档的 id,也可以采用自定义值,比如用户 id。
ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时, 我们需要根据公司要求,进行偏向性的优化。
针对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择恰当写 优化策略。综合来说,可以考虑以下几个方面来提升写入磁盘的性能:
ES 默认安装后设置的内存是 1GB,对于任何一个现实业务来说,这个设置都太小了。 如果是通过解压安装的 ES,则在 ES 安装文件中包含一个 jvm.option 文件,添加如下命 令来设置 ES 的堆大小,Xms 表示堆的初始大小,Xmx 表示可分配的最大内存,默认都是 1GB。
确保 Xmx 和 Xms 的大小是相同的,其目的是为了能够在 Java 垃圾回收机制清理完 堆区后不需要重新分隔计算堆区的大小而浪费资源,可以减轻伸缩堆大小带来的压力。
假设你有一个 64G 内存的机器,按照正常思维思考,你可能会认为把 64G 内存都给 ES 比较好,但现实是这样吗, 越大越好?虽然内存对 ES 来说是非常重要的,但是答案 是否定的!
因为 ES 堆内存的分配需要满足以下两个原则:
Lucene 的段是分别存储到单个文件中的,这些文件都是不会变化的,所以很利于缓存,同时操作系 统也会把这些段文件缓存起来(即写入磁盘前缓存到OS cache),以便更快的访问。
如果我们设置的堆内存过大,Lucene 可用的内存将会减少,就会严重影响降低 Lucene 的全文本查 询性能。
这个指针在 64 位的操作系统上为 64 位,64 位的操作系统可以使用更多的内存(2^64)。在 32 位 的系统上为 32 位,32 位的操作系统的最大寻址空间为 4GB(2^32)。
但是 64 位的指针意味着更大的浪费,因为你的指针本身大了。浪费内存不算,更糟糕的是,更大的 指针在主内存和缓存器(例如 LLC, L1 等)之间移动数据的时候,会占用更多的带宽。
所以如果我们的内存为64G,最终我们都会采用 31 G 设置.
假设你有个机器有 128 GB 的内存,你可以创建两个节点,每个节点内存分配不超过 32 GB。 也就是说 不超过 64 GB 内存给 ES 的堆内存,剩下的超过 64 GB 的内存给 Lucene.(即单个节点分配的内存最好不超过32G)
“脑裂”问题可能的成因:
脑裂问题解决方案:
减少误判:discovery.zen.ping_timeout 节点状态的响应时间,默认为 3s,可以适当调大,如果 master 在该响应时间的范围内没有做出响应应答,判断该节点已经挂掉了。调大参数(如 6s, discovery.zen.ping_timeout:6),可适当减少误判。
选举触发: discovery.zen.minimum_master_nodes:1 ;
该参数是用于控制选举行为发生所需的最小集群节点数量。即当备选主节点(设置了可以成为主节点的节点)的个数大于等于该参数的值, 且备选主节点中有超过这个参数个节点认为主节点挂了,才进行选举新master。官方建议为(n/2)+1,n 为主节点个数 (即有资格成为主节点的节点个数)
角色分离:即 master 节点与 data 节点分离,限制角色; 这样就可以减小master节点因为数据查询故障的可能性
主节点配置为:node.master: true node.data: false
从节点配置为:node.master: false node.data: true