AiTtang

ES(ElasticSearch)快速入门和集群搭建

文章目录

1.ES快速入门
- 1.1.index管理
- 1.2.mapping管理
- 1.3.document管理
- 1.4.ES读写过程
- - 1.4.1.documnet routing（数据路由）
  - 1.4.2.为什么primary shard数量不可变？
- 1.5.luke查看ES的逻辑结构
2.IK分词器
- 2.1.测试分词器
- 2.2.中文分词器
- - 2.2.1.Lucene自带中文分词器
  - 2.2.2.第三方中文分析器
- 2.3.安装IK分词器
- 2.4.两种分词模式
- 2.5.自定义词库
3.field详细介绍
- 3.1.field的属性介绍
- 3.2.常用field类型
- - 3.2.1.text文本字段
  - 3.2.2.keyword关键字字段
  - 3.2.3.date日期类型
  - 3.2.4.Numeric类型
- 3.3.field属性的设置标准
3.Spring Boot整合ElasticSearch
- 3.1.ES客户端
- 3.2.搭建工程
- 3.3.索引管理
- - 3.3.1.创建索引库
  - 3.3.2.删除索引库
  - 3.3.2.添加文档
  - 3.3.3.批量添加文档
  - 3.3.4.修改文档
  - 3.3.5.删除文档
- 3.4.文档搜索
- - 3.4.1.准备环境
  - 3.4.2.简单搜索
  - - 3.4.3.1.match_all查询
    - 3.3.3.2.分页查询
    - 3.3.3.4.match查询
    - 3.3.3.5.multi_match查询
    - 3.3.3.6.bool查询
    - 3.3.3.7.filter查询
    - 3.3.3.8.highlight查询
4.集群管理
- 4.1.集群结构
- 4.2.创建结点2
- 4.3.查看集群健康状态
- 4.4.测试

1.ES快速入门

ES作为一个索引及搜索服务，对外提供丰富的REST接口，快速入门部分的实例使用kibana来测试，目的是对ES的使用方法及流程有个初步的认识。

1.1.index管理

创建index

索引库。包含若干相似结构的 Document 数据，相当于数据库的database。

语法：PUT /index_name

如：

PUT /java06
{
  "settings": {
    "number_of_shards": 2,
    "number_of_replicas": 1
  }
}

number_of_shards - 表示一个索引库将拆分成多片分别存储不同的结点，提高了ES的处理能力

number_of_replicas - 是为每个 primary shard分配的replica shard数，提高了ES的可用性，如果只有一台机器，设置为0

效果：

修改index

注意：索引一旦创建，primary shard 数量不可变化，可以改变replica shard 数量。

语法：PUT /index_name/_settings

如：

PUT /java06/_settings
{
  "number_of_replicas" : 1
}

ES 中对 shard 的分布是有要求的，有其内置的特殊算法：

Replica shard 会保证不和他的那个 primary shard 分配在同一个节点上；如过只有一个节点，则此案例执行后索引的状态一定是yellow。

删除index

DELETE /java06[, other_index]

1.2.mapping管理

Mapping介绍

映射，创建映射就是向索引库中创建field（类型、是否索引、是否存储等特性）的过程，下边是document和field与关系数据库的概念的类比：

elasticsearch	关系数据库
index(索引库)	database(数据库)
type(类型)	table(表)
document(文档)	row(记录)
field(域)	column(字段)

注意：6.0之前的版本有type（类型）概念，type相当于关系数据库的表，ES6.x 版本之后，type概念被弱化ES官方将在ES7.0版本中彻底删除type。

创建mapping

语法：POST /index_name/type_name/_mapping

如：

POST /java06/course/_mapping
{
  "properties": {
     "name": {
        "type": "text"
     },
     "description": {
        "type": "text"
     },
     "studymodel": {
        "type": "keyword"
     }
  }
}

效果：

查询mapping

查询所有索引的映射：

GET /java06/course/_mapping

更新mapping

映射创建成功可以添加新字段，已有字段不允许更新。

删除mapping

通过删除索引来删除映射。

1.3.document管理

创建document

ES中的文档相当于MySQL数据库表中的记录。

POST语法

此操作为 ES 自动生成 id 的新增 Document 方式。

语法：POST /index_name/type_name/id

如：

POST /java06/course/1
{
  "name":"python从入门到放弃",
  "description":"人生苦短，我用Python",
  "studymodel":"201002"
}

POST /java06/course
{
  "name":".net从入门到放弃",
  "description":".net程序员谁都不服",
  "studymodel":"201003"
}

PUT语法

此操作为手工指定 id 的 Document 新增方式。

语法：PUT/index_name/type_name/id{field_name:field_value}

如：

PUT /java06/course/2
{
  "name":"php从入门到放弃",
  "description":"php是世界上最好的语言",
  "studymodel":"201001"
}

结果：

{
  "_index": "test_index", 新增的 document 在什么 index 中，
  "_type": "my_type", 新增的 document 在 index 中的哪一个 type 中。
  "_id": "1", 指定的 id 是多少
  "_version": 1, document 的版本是多少，版本从 1 开始递增，每次写操作都会+1
  "result": "created", 本次操作的结果，created 创建，updated 修改，deleted 删除
  "_shards": { 分片信息
      "total": 2, 分片数量只提示 primary shard
      "successful": 1, 数据 document 一定只存放在 index 中的某一个 primary shard 中
      "failed": 0
  },
  "_seq_no": 0, 
  "_primary_term": 1
}

通过head查询数据：

查询document

语法：

GET /index_name/type_name/id

或

GET /index_name/type_name/_search?q=field_name:field_value

如：根据课程id查询文档

GET /java06/course/1

如：查询所有记录

GET /java06/course/_search

如：查询名称中包括php 关键字的的记录

GET /java06/course/_search?q=name:门

结果：

{
  "took": 1, # 执行的时长。单位毫秒
  "timed_out": false, # 是否超时
  "_shards": { # shard 相关数据
    "total": 1, # 总计多少个 shard
    "successful": 1, # 成功返回结果的 shard 数量
    "skipped": 0,
    "failed": 0
  },
  "hits": { # 搜索结果相关数据
    "total": 3, # 总计多少数据，符合搜索条件的数据数量
    "max_score": 1, # 最大相关度分数，和搜索条件的匹配度
    "hits": [# 具体的搜索结果
      {
        "_index": "java06",# 索引名称
        "_type": "course", # 类型名称
        "_id": "1",# id 值
        "_score": 1, # 匹配度分数，本条数据匹配度分数
        "_source": { # 具体的数据内容
          "name": "php从入门到放弃",
          "description": "php是世界上最好的语言",
          "studymodel": "201001"
        }, {
			"_index": "java06",
			"_type": "course",
			"_id": "2",
			"_score": 0.13353139,
			"_source": {
				"name": "php从入门到放弃",
				"description": "php是世界上最好的语言",
				"studymodel": "201001"
			}
		}, {
			"_index": "java06",
			"_type": "course",
			"_id": "6ljFCnIBp91f7uS8FkjS",
			"_score": 0.13353139,
			"_source": {
				"name": ".net从入门到放弃",
				"description": ".net程序员谁都不服",
				"studymodel": "201003"
			}
		}
	 ]
  }
}

删除Document

ES 中执行删除操作时，ES先标记Document为deleted状态，而不是直接物理删除。当ES 存储空间不足或工作空闲时，才会执行物理删除操作，标记为deleted状态的数据不会被查询搜索到（ES 中删除 index ，也是标记。后续才会执行物理删除。所有的标记动作都是为了NRT（近实时）实现）

语法：DELETE /index_name/type_name/id

如：

DELETE /java06/course/3

结果：

{
  "_index": "java06",
  "_type": "course",
  "_id": "2",
  "_version": 2,
  "result": "deleted",
  "_shards": {
    "total": 1,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 3,
  "_primary_term": 1
}

1.4.ES读写过程

1.4.1.documnet routing（数据路由）

当客户端创建document的时候，es需要确定这个document放在该index哪个shard上，这个过程就是document routing。

路由过程：

路由算法：shard = hash(5) %number_of_primary_shards

id：document的_id，可能是手动指定，也可能是自动生成，决定一个document在哪个shard上

number_of_primary_shards*：*主分片數量。

1.4.2.为什么primary shard数量不可变？

原因：假如我们的集群在初始化的时候有5个primary shard，我们往里边加入一个document id=5，假如hash(5)=23,这时该document 将被加入 (shard=23%5=3)P3这个分片上。如果随后我们给es集群添加一个primary shard ，此时就有6个primary shard，当我们GET id=5 ，这条数据的时候，es会计算该请求的路由信息找到存储他的 primary shard（shard=23%6=5），根据计算结果定位到P5分片上。而我们的数据在P3上。所以es集群无法添加primary shard，但是可以扩展replicas shard。

1.5.luke查看ES的逻辑结构

拷贝elasticsearch-6.2.3/data到windows
双击luke.bat，启动luke
使用luke打开data\nodes\0\indices路径

2.IK分词器

2.1.测试分词器

在添加文档时会进行分词，索引中存放的就是一个一个的词（term），当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。

测试当前索引库使用的分词器：

POST /_analyze
{
  "text":"测试分词器，后边是测试内容：spring cloud实战"
}

结果如下：

会发现分词的效果将“测试”这个词拆分成两个单字“测”和“试”，这是因为当前索引库使用的分词器对中文就是单字分词。

2.2.中文分词器

2.2.1.Lucene自带中文分词器

StandardAnalyzer：

单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，
效果：“我”、“爱”、“中”、“国”。

CJKAnalyzer

二分法分词：按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”“国人”。

上边两个分词器无法满足需求。

SmartChineseAnalyzer

对中文支持较好，但扩展性差，扩展词库和禁用词库等不好处理

2.2.2.第三方中文分析器

paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。

IK-analyzer：最新版在https://code.google.com/p/ik-analyzer/上，支持Lucene 4.10从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是2012年12月后没有在更新。

2.3.安装IK分词器

使用IK分词器可以实现对中文分词的效果。

下载IK分词器：（Github地址：https://github.com/medcl/elasticsearch-analysis-ik）

1、下载zip：

2、解压，并将解压的文件拷贝到ES安装目录的plugins下的ik(重命名)目录下，重启es

3、测试分词效果：

POST /_analyze
{
  "text":"中华人民共和国人民大会堂",
  "analyzer":"ik_smart"
}

2.4.两种分词模式

ik分词器有两种分词模式：ik_max_word和ik_smart模式。

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民大会堂、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart

会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

2.5.自定义词库

如果要让分词器支持一些专有词语，可以自定义词库。

iK分词器自带的main.dic的文件为扩展词典，stopword.dic为停用词典。

也可以上边的目录中新建一个my.dic文件（注意文件格式为utf-8（不要选择utf-8 BOM））

可以在其中自定义词汇：

比如定义：

配置文件中配置my.dic，

3.field详细介绍

上边章节安装了ik分词器，如何在索引和搜索时去使用ik分词器呢？如何指定field的类型？比如日期类型、数值类型等。

ES6.2核心的字段类型如下：

3.1.field的属性介绍

type：

通过type属性指定field的类型。

"name":{	
       "type":"text"
}

analyzer：

通过analyzer属性指定分词模式。

 "name": {
                  "type": "text",
                  "analyzer":"ik_max_word"
   }

上边指定了analyzer是指在索引和搜索都使用ik_max_word，如果单独想定义搜索时使用的分词器则可以通过
search_analyzer属性。
对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词，搜索时使用ik_smart提高搜索精确性。

"name": {
                  "type": "text",
                  "analyzer":"ik_max_word",#生成索引目录时
                  "search_analyzer":"ik_smart"#检索时
 }

index：

通过index属性指定是否索引。
默认为index=true，即要进行索引，只有进行索引才可以从索引库搜索到。
但是也有一些内容不需要索引，比如：商品图片地址只被用来展示图片，不进行搜索图片，此时可以将index设置
为false。
删除索引，重新创建映射，将pic的index设置为false，尝试根据pic去搜索，结果搜索不到数据

"pic": {
  	   "type":"text",           
       "index":false
}

source：

如果某个字段内容非常多，业务里面只需要能对该字段进行搜索，比如：商品描述。查看文档内容会再次到mysql或者hbase中取数据，把大字段的内容存在Elasticsearch中只会增大索引，这一点文档数量越大结果越明显，如果一条文档节省几KB，放大到亿万级的量结果也是非常可观的。

如果只想存储某几个字段的原始值到Elasticsearch，可以通过incudes参数来设置，在mapping中的设置如下:

POST /java06/course/_mapping
{
  "_source": {
    "includes":["description"]
  }
}

同样，可以通过excludes参数排除某些字段：

POST /java06/course/_mapping
{
  "_source": {
    "excludes":["description"]
  }
}

3.2.常用field类型

3.2.1.text文本字段

例如：
1、创建新映射：

POST /java06/course/_mapping
{
  "_source": {
    "includes":["description"]
  }  
  "properties": {   
       "name": {
           "type": "text",
           "analyzer":"ik_max_word",
           "search_analyzer":"ik_smart"
       },         
      "description": {
          "type": "text",
          "analyzer":"ik_max_word",
          "search_analyzer":"ik_smart"
      },
      "pic":{
          "type":"text",
          "index":false
      }
  }   
}

2、插入文档：

POST /java06/course/1
{
  "name":"python从入门到放弃",
  "description":"人生苦短，我用Python",
  "pic":"250.jpg"
}

3、查询测试：

GET /java06/course/_search?q=name:放弃
GET /java06/course/_search?q=description:人生
GET /java06/course/_search?q=pic:250.jpg

结果：name和description都支持全文检索，pic不可作为查询条件

3.2.2.keyword关键字字段

上边介绍的text文本字段在映射时要设置分词器，keyword字段为关键字字段，通常搜索keyword是按照整体搜索，所以创建keyword字段往索引目录写时是不进行分词的，比如：邮政编码、手机号码、身份证等。keyword字段通常用于过虑、排序、聚合等。

例如：
1、更改映射：

POST /java06/course/_mapping
{
 	"properties": {
       "studymodel":{
          "type":"keyword"
       }
 	}
}

2、插入文档：

PUT /java06/course/2
{
 "name": "java编程基础",
 "description": "java语言是世界第一编程语言",
 "pic":"250.jpg",
 "studymodel": "2010年01月"
}

3、根据name查询文档：

GET /java06/course/_search?q=studymodel:2010年01月

name是keyword类型，所以查询方式是精确查询。

3.2.3.date日期类型

日期类型不用设置分词器，通常日期类型的字段用于排序。
1)format
通过format设置日期格式，多个格式使用双竖线||分隔, 每个格式都会被依次尝试, 直到找到匹配的

例如：
1、设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。

POST /java06/course/_mapping
{
	"properties": {
       "timestamp": {
         "type":   "date",
         "format": "yyyy-MM-dd"
       }
     }
}

2、插入文档：

PUT /java06/course/3
{
"name": "spring开发基础",
"description": "spring 在java领域非常流行，java程序员都在用。",
"studymodel": "201001",
 "pic":"250.jpg",
 "timestamp":"2018-07-04 18:28:58"
}

3.2.4.Numeric类型

es中的数字类型经过分词(特殊)后支持排序和区间搜索

例如：
1、更新已有映射：

POST /java06/course/_mapping
{
	"properties": {
	"price": {
        "type": "float"
     }
  }
}

2、插入文档

PUT /java06/course/3
{
 "name": "spring开发基础",
 "description": "spring 在java领域非常流行，java程序员都在用。",
 "studymodel": "201001",
 "pic":"250.jpg",
 "price":38.6
}

3.3.field属性的设置标准

属性	标准
type	是否有意义
index	是否搜索
source	是否展示

3.Spring Boot整合ElasticSearch

3.1.ES客户端

ES提供多种不同的客户端：

1、TransportClient

ES提供的传统客户端，官方计划8.0版本删除此客户端。

2、RestClient

RestClient是官方推荐使用的，它包括两种：REST Low Level Client和 REST High Level Client。ES在6.0之后提供REST High Level Client，两种客户端官方更推荐使用 REST High Level Client，不过当前它还处于完善中，有些功能还没有。

3.2.搭建工程

pom.xml


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
    <parent>
        <groupId>org.springframework.bootgroupId>
        <artifactId>spring-boot-starter-parentartifactId>
        <version>2.3.2.RELEASEversion>
    parent>

    <groupId>com.bjpowernodegroupId>
    <artifactId>springboot_elasticsearchartifactId>
    <version>1.0-SNAPSHOTversion>
    
    
    <properties>
        <elasticsearch.version>6.2.3elasticsearch.version>
    properties>
    
    <dependencies>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        <dependency>
            <groupId>org.elasticsearch.clientgroupId>
            <artifactId>elasticsearch-rest-high-level-clientartifactId>
            <version>${elasticsearch.version}version>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-testartifactId>
        dependency>
    dependencies>
project>

application.yml

spring:
  elasticsearch:
    rest:
      uris:
        - http://192.168.204.132:9200

app

package com.bjpowernode;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class ElasticsearchApp {

	public static void main(String[] args) {
		SpringApplication.run(ElasticsearchApp.class, args);
	}
}

3.3.索引管理

3.3.1.创建索引库

api

创建索引库：

PUT /java06
{
  "settings":{
       "number_of_shards" : 2,
       "number_of_replicas" : 0
  }
}

创建映射：

POST /java06/course/_mapping
{
  "_source": {
    "excludes":["description"]
  }, 
 	"properties": {
      "name": {
          "type": "text",
          "analyzer":"ik_max_word",
          "search_analyzer":"ik_smart"
      },
      "description": {
          "type": "text",
          "analyzer":"ik_max_word",
          "search_analyzer":"ik_smart"
       },
       "studymodel": {
          "type": "keyword"
       },
       "price": {
          "type": "float"
       },
       "pic":{
		   "type":"text",
		   "index":false
	    }
  }
}

Java Client

@RunWith(SpringJUnit4ClassRunner.class)
@SpringBootTest(classes = {ElasticsearchApp.class})
public class IndexWriterTest {
	@Autowired
    private RestHighLevelClient restHighLevelClient;

   //创建索引库
    @Test
    public void testCreateIndex() throws IOException {
        //创建“创建索引请求”对象，并设置索引名称
        CreateIndexRequest createIndexRequest = new CreateIndexRequest("java06");
        //设置索引参数
        createIndexRequest.settings("{\n" +
                "       \"number_of_shards\" : 2,\n" +
                "       \"number_of_replicas\" : 0\n" +
                "  }", XContentType.JSON);
        createIndexRequest.mapping("course", "{\r\n" + 
        		"  \"_source\": {\r\n" + 
        		"    \"excludes\":[\"description\"]\r\n" + 
        		"  }, \r\n" + 
        		" 	\"properties\": {\r\n" + 
        		"           \"name\": {\r\n" + 
        		"              \"type\": \"text\",\r\n" + 
        		"              \"analyzer\":\"ik_max_word\",\r\n" + 
        		"              \"search_analyzer\":\"ik_smart\"\r\n" + 
        		"           },\r\n" + 
        		"           \"description\": {\r\n" + 
        		"              \"type\": \"text\",\r\n" + 
        		"              \"analyzer\":\"ik_max_word\",\r\n" + 
        		"              \"search_analyzer\":\"ik_smart\"\r\n" + 
        		"           },\r\n" + 
        		"           \"studymodel\": {\r\n" + 
        		"              \"type\": \"keyword\"\r\n" + 
        		"           },\r\n" + 
        		"           \"price\": {\r\n" + 
        		"              \"type\": \"float\"\r\n" + 
        		"           },\r\n" + 
        		"  }\r\n" + 
        		"}", XContentType.JSON);
        //创建索引操作客户端
        IndicesClient indices = restHighLevelClient.indices();

        //创建响应对象
        CreateIndexResponse createIndexResponse = 
            indices.create(createIndexRequest);
        //得到响应结果
        boolean acknowledged = createIndexResponse.isAcknowledged();
        System.out.println(acknowledged);
    } 
  }

3.3.2.删除索引库

api

DELETE /java06

java client

	//删除索引库
	@Test
	public void testDeleteIndex() throws IOException {
		//创建“删除索引请求”对象
		DeleteIndexRequest deleteIndexRequest = new DeleteIndexRequest("java06");
		//创建索引操作客户端
		IndicesClient indices = restHighLevelClient.indices();
		//创建响应对象
		DeleteIndexResponse deleteIndexResponse = 
            indices.delete(deleteIndexRequest);
		//得到响应结果
		boolean acknowledged = deleteIndexResponse.isAcknowledged();
		System.out.println(acknowledged);
	}

3.3.2.添加文档

api

POST /java06/course/1
{
 "name":"spring cloud实战",
 "description":"本课程主要从四个章节进行讲解： 1.微服务架构入门 2.spring cloud 基础入门 3.实战Spring Boot 4.注册中心eureka。",
 "studymodel":"201001",
 "price":5.6
}

java client

	//添加文档
	@Test
	public void testAddDocument() throws IOException {
		//创建“索引请求”对象：索引当动词
		IndexRequest indexRequest = new IndexRequest("java06", "course", "1");
		indexRequest.source("{\n" +
				" \"name\":\"spring cloud实战\",\n" +
				" \"description\":\"本课程主要从四个章节进行讲解： 1.微服务架构入门 " +
				"2.spring cloud 基础入门 3.实战Spring Boot 4.注册中心nacos。\",\n" +
				" \"studymodel\":\"201001\",\n" +
				" \"price\":5.6\n" +
				"}", XContentType.JSON);
		IndexResponse indexResponse = 
            restHighLevelClient.index(indexRequest);
		System.out.println(indexResponse.toString());
	}

3.3.3.批量添加文档

支持在一次API调用中，对不同的索引进行操作。支持四种类型的操作：index、create、update、delete。

语法：

POST /_bulk
{ action: { metadata }} 
{ requestbody }\n
{ action: { metadata }} 
{ requestbody }\n
...

api

POST /_bulk
{"index":{"_index":"java06","_type":"course"}}
{"name":"php实战","description":"php谁都不服","studymodel":"201001","price":"5.6"}
{"index":{"_index":"java06","_type":"course"}}
{"name":"net实战","description":"net从入门到放弃","studymodel":"201001","price":"7.6"}

java client

@Test
public void testBulkAddDocument() throws IOException {
    BulkRequest bulkRequest = new BulkRequest();
    bulkRequest.add(new IndexRequest("java06", "course").source("{...}",
                                                                  XContentType.JSON));
    bulkRequest.add(new IndexRequest("java06", "course").source("{...}",
                                                                  XContentType.JSON));
    BulkResponse bulkResponse = 
                   restHighLevelClient.bulk(bulkRequest);
    System.out.println(bulkResponse.hasFailures());
}

3.3.4.修改文档

api

PUT /java06/course/1
{
 "price":66.6
}

java client

//更新文档
@Test
public void testUpdateDocument() throws IOException {
    UpdateRequest updateRequest = new UpdateRequest("java06", "course", "1");
    updateRequest.doc("{\n" +
            "  \"price\":7.6\n" +
            "}", XContentType.JSON);
    UpdateResponse updateResponse = 
                   restHighLevelClient.update(updateRequest);
    System.out.println(updateResponse.getResult());
}

3.3.5.删除文档

api

DELETE /java06/coures/1

java client

    //根据id删除文档
    @Test
    public void testDelDocument() throws IOException {
        //删除请求对象
        DeleteRequest deleteRequest = new DeleteRequest("java06","course","1");
        //响应对象
        DeleteResponse deleteResponse = 
            restHighLevelClient.delete(deleteRequest);
        System.out.println(deleteResponse.getResult());
    }

3.4.文档搜索

3.4.1.准备环境

向索引库中插入以下数据：

PUT /java06/course/1
{
  "name": "Bootstrap开发",
  "description": "Bootstrap是由Twitter推出的一个前台页面开发css框架，是一个非常流行的开发框架，此框架集成了多种页面效果。此开发框架包含了大量的CSS、JS程序代码，可以帮助开发者（尤其是不擅长css页面开发的程序人员）轻松的实现一个css，不受浏览器限制的精美界面css效果。",
  "studymodel": "201002",
  "price":38.6,
  "pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg"
}

PUT /java06/course/2
{
  "name": "java编程基础",
  "description": "java语言是世界第一编程语言，在软件开发领域使用人数最多。",
  "studymodel": "201001",
  "price":68.6,
  "pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg"
}

PUT /java06/course/3
{
  "name": "spring开发基础",
  "description": "spring 在java领域非常流行，java程序员都在用。",
  "studymodel": "201001",
  "price":88.6,
  "pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg"
}

3.4.2.简单搜索

简单搜索就是通过url进行查询，以get方式请求ES。
语法：

GET /index_name/type_name/doc_id
GET [/index_name/type_name/]_search[?parameter_name=parameter_value&…]

例如：

GET /java06/course/_search?q=name:spring&sort=price:desc

注意：
如果查询条件复杂，很难构建搜索条件，生产环境中很少使用。
例如：要求搜索条件为商品名称包含手机，价格在 1000~5000之间，销量在每月 500 以上，根据价格升序排列，分页查询第二页，每页 40 条数据：?q=xxxx:xxx&range=xxx:xxx:xxx&aggs&sort&from&size

api

GET /java06/course/1

java client

    //查询文档
    @Test
    public void getDoc() throws IOException {
        GetRequest getRequest = new GetRequest("java06","course","1");
        GetResponse getResponse = restHighLevelClient.get(getRequest);
        boolean exists = getResponse.isExists();
        System.out.println(exists);
		String source = getResponse.getSourceAsString();
		System.out.println(source);
    }

DSL搜索

DSL(Domain Specific Language)是ES提出的基于json的搜索方式，在搜索时传入特定的json格式的数据来完成不同的搜索需求，DSL比URI搜索方式功能强大，在项目中建议使用DSL方式来完成搜索。
语法：

GET /index_name/type_name/_search
{
“commond”:{
“parameter_name” : “parameter_value”
}
}

3.4.3.1.match_all查询

api

GET /java06/course/_search
{
  "query" : { 
    "match_all" : {}
  }
}

java client

@RunWith(SpringJUnit4ClassRunner.class)
@SpringBootTest(classes = {ElasticsearchApp.class})
public class IndexReaderTest {
    @Autowired
    private RestHighLevelClient restHighLevelClient;
    private SearchRequest searchRequest;
    private SearchResponse searchResponse;

    @Before
    public void init(){
        searchRequest = new SearchRequest();
        searchRequest.indices("java06");
        searchRequest.types("course");
    }

    @Test
    public void testMatchAll() throws IOException {
        //2、创建 search请求对象
        SearchRequest searchRequest = new SearchRequest();
        searchRequest.indices("java06");
        searchRequest.types("course");

        //3、创建 参数构造器
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        searchSourceBuilder.query(QueryBuilders.matchAllQuery());

        //4、设置请求参数
        searchRequest.source(searchSourceBuilder);

        //1、调用search方法
        SearchResponse searchResponse = restHighLevelClient.search(searchRequest);

        SearchHits searchHits = searchResponse.getHits();
        
        long totalHits = searchHits.getTotalHits();
        System.out.println("共搜索到"+totalHits+"条文档");

        SearchHit[] hits = searchHits.getHits();
        for (SearchHit hit : hits) {
            System.out.println(hit.getSourceAsString());
        }
    }

    @After
    public void show(){
        SearchHits searchHits = searchResponse.getHits();
        long totalHits = searchHits.getTotalHits();
        System.out.println("共搜索到"+totalHits+"条文档");

        SearchHit[] hits = searchHits.getHits();
        for (SearchHit hit : hits) {
            System.out.println(hit.getSourceAsString());
        }
    }
}

3.3.3.2.分页查询

api

GET /java06/course/_search
{
  "query" : { "match_all" : {} },
  "from" : 1, # 从第几条数据开始查询，从0开始计数
  "size" : 3, # 查询多少数据
  "sort" : [
    { "price" : "asc" }
  ]
}

java client

//分页查询
@Test
public void testSearchPage() throws Exception {
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(QueryBuilders.matchAllQuery());
    searchSourceBuilder.from(1);
    searchSourceBuilder.size(5);
    searchSourceBuilder.sort("price", SortOrder.ASC);

    // 设置搜索源
    searchRequest.source(searchSourceBuilder);
    // 执行搜索
    searchResponse = restHighLevelClient.search(searchRequest);
}

3.3.3.4.match查询

match Query即全文检索，它的搜索方式是先将搜索字符串分词，再使用各各词条从索引中搜索。

api

query：搜索的关键字
operator：or 表示只要有一个词在文档中出现则就符合条件，and表示每个词都在文档中出现则才符合条件。

1、基本使用：

GET /java06/course/_search
{
  "query" : {
    "match" : {
      "name": {
        "query": "spring开发"
      }
    }
  }
}

2、operator：

GET /java06/course/_search
{
  "query" : {
    "match" : {
      "name": {
        "query": "spring开发",
        "operator": "and"
      }
    }
  }
}

上边的搜索的执行过程是：
1、将“spring开发”分词，分为spring、开发两个词
2、再使用spring和开发两个词去匹配索引中搜索。
3、由于设置了operator为and，必须匹配两个词成功时才返回该文档。

java client

@Test
public void testMatchQuery() throws Exception {
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(QueryBuilders.matchQuery("name", "spring开
                                                       发").operator(Operator.AND));
		
    // 设置搜索源
    searchRequest.source(searchSourceBuilder);
    // 执行搜索
    searchResponse = restHighLevelClient.search(searchRequest);
 }

3.3.3.5.multi_match查询

matchQuery是在一个field中去匹配，multiQuery是拿关键字去多个Field中匹配。

api

1、基本使用
例子：关键字 “开发”去匹配name 和description字段

GET /java06/course/_search
{
  "query": {
    "multi_match": {
      "query": "开发",
      "fields": ["name","description"]
    }
  }
}

注意：此搜索操作适合构建复杂查询条件，生产环境常用。

java client

@Test
public void testMultiMatchQuery() throws Exception {
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(QueryBuilders.multiMatchQuery("开发","name","description"));
		
    // 设置搜索源
    searchRequest.source(searchSourceBuilder);
    // 执行搜索
    searchResponse = restHighLevelClient.search(searchRequest);
}

3.3.3.6.bool查询

布尔查询对应于Lucene的BooleanQuery查询，实现将多个查询组合起来。
参数：
must：表示必须，多个查询条件必须都满足。（通常使用must）
should：表示或者，多个查询条件只要有一个满足即可。
must_not：表示非。

api

例如：查询name包括“开发”并且价格区间是1-100的文档

GET /java06/course/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "开发"
          }
        },
        {
          "range": {
            "price": {
              "gte": 50,
              "lte": 100
            }
          }
        }
      ]
    }
  }
}

java client


    @Test
    public void testBooleanMatch() throws IOException {
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        //json条件
        BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
        boolQueryBuilder.must(QueryBuilders.matchQuery("name","开发"));
        boolQueryBuilder.must(QueryBuilders.rangeQuery("price").gte("50").lte(100));
        searchSourceBuilder.query(boolQueryBuilder);

        searchRequest.source(searchSourceBuilder);
        SearchResponse searchResponse = restHighLevelClient.search(searchRequest);
    }

3.3.3.7.filter查询

过滤查询。此操作实际上就是 query DSL 的补充语法。过滤的时候，不进行任何的匹配分数计算，相对于 query 来说，filter 相对效率较高。Query 要计算搜索匹配相关度分数。Query更加适合复杂的条件搜索。

api

如：使用bool查询，搜索 name中包含 "开发"的数据，且price在 10~100 之间
1、不使用 filter， name和price需要计算相关度分数：

GET /java06/course/_search
{
  "query": {
     "bool" : {
        "must":[
            {
               "match": {
                 "name": "开发"
               }
            },
            {
              "range": {# 范围， 字段的数据必须满足某范围才有结果。
                "price": {
                  "gte": 10, # 比较符号 lt gt lte gte
                  "lte": 100
                }
              }
            }
        ]
     }
  }
}

2、使用 filter， price不需要计算相关度分数：

GET /java06/course/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "开发"
          }
        }
      ],
      "filter": {# 过滤，在已有的搜索结果中进行过滤，满足条件的返回。
        "range": {
          "price": {
            "gte": 1,
            "lte": 100
          }
        }
      }
    }
  }
}

java client

@Test
public void testFilterQuery() throws IOException {
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
    boolQueryBuilder.must(QueryBuilders.matchQuery("name","开发"));
    boolQueryBuilder.filter(QueryBuilders.rangeQuery("price").gte(10).lte(100))
    searchSourceBuilder.query(boolQueryBuilder);
    searchRequest.source(searchSourceBuilder);
    searchResponse = restHighLevelClient.search(searchRequest);
}

3.3.3.8.highlight查询

高亮显示：高亮不是搜索条件，是显示逻辑，在搜索的时候，经常需要对搜索关键字实现高亮显示。

api

例如：

GET /java06/course/_search
{
  "query": {
    "match": {
      "name": "开发"
    }
  },
  "highlight": {
      "pre_tags": [""],
      "post_tags": [""],
      "fields": {"name": {}}
  }
}

java clent

1、查询：

  @Test
  public void testHighLightQuery() throws Exception {
      SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
      searchSourceBuilder.query(QueryBuilders.matchQuery("name", "spring"));
      //设置高亮
      HighlightBuilder highlightBuilder = new HighlightBuilder();
      highlightBuilder.preTags("");
      highlightBuilder.postTags("");
      highlightBuilder.fields().add(new HighlightBuilder.Field("name"));
      searchSourceBuilder.highlighter(highlightBuilder);

      searchRequest.source(searchSourceBuilder);
      searchResponse = restHighLevelClient.search(searchRequest);
}

2、遍历：

 @After
public void displayDoc() {
    SearchHits searchHits = searchResponse.getHits();
    long totalHits = searchHits.getTotalHits();
    System.out.println("共搜索到" + totalHits + "条文档");

    SearchHit[] hits = searchHits.getHits();
    for (int i = 0; i < hits.length; i++) {
        SearchHit hit = hits[i];
        String id = hit.getId();
        System.out.println("id：" + id);
        String source = hit.getSourceAsString();
        System.out.println(source);

        Map<String, HighlightField> highlightFields = hit.getHighlightFields();
        if (highlightFields != null) {
            HighlightField highlightField = highlightFields.get("name");
            Text[] fragments = highlightField.getFragments();
            System.out.println("高亮字段：" + fragments[0].toString());
        }
    }

}

4.集群管理

4.1.集群结构

ES通常以集群方式工作，这样做不仅能够提高 ES的搜索能力还可以处理大数据搜索的能力，同时也增加了系统的

容错能力及高可用。

下图是ES集群结构的示意图：

此处的设置为：每个主分片有两个副本，如果某个节点挂了也不怕，比如节点1挂了，我们可以查询位于节点3和节点3上的副本0

添加文档过程：

（1）假设用户把请求发给了节点1

（2）系统通过余数算法得知这个’文档’应该属于主分片2，于是请求被转发到保存该主分片的节点3

（3）系统把文档保存在节点3的主分片2中，然后将请求转发至其他两个保存副本的节点。

查询文档过程：

（1）请求被发给了节点1

（2）节点1计算出该数据属于主分片2，这时候，有三个选择，分别是位于节点1的副本2，节点2的副本2，节点3

的主分片2，假设节点1负载均衡，采用轮询的方式，选中了节点2，把请求转发。

（3）节点2把数据返回给节点1，节点1 最后返回给客户端。

4.2.创建结点2

1、拷贝节点elasticsearch-1

2、修改elasticsearch.yml内容如下：

node.name: power_shop_node_2
discovery.zen.ping.unicast.hosts: ["192.168.204.132:9300", "192.168.204.133:9300"]

3、删除节点2的data目录

4.3.查看集群健康状态

1、查询当前集群的健康信息：

GET /_cluster/health

2、结果：

{
  "cluster_name": "power_shop",
  "status": "green",
  "timed_out": false,
  "number_of_nodes": 2,
  "number_of_data_nodes": 2,
  "active_primary_shards": 2,
  "active_shards": 4,
  "relocating_shards": 0,
  "initializing_shards": 0,
  "unassigned_shards": 0,
  "delayed_unassigned_shards": 0,
  "number_of_pending_tasks": 0,
  "number_of_in_flight_fetch": 0,
  "task_max_waiting_in_queue_millis": 0,
  "active_shards_percent_as_number": 100
}

status：用三种颜色来展示健康状态

green：索引库的每个 primary shard 和 replica shard 都是 active 的

yellow：索引库的每个 primary shard 都是 active 的，但部分的 replica shard 不是 active 的，如单节点创建

备份分配

red：不是所有的 primary shard 都是 active 状态的。

4.4.测试

1、启动两个节点，测试集群健康状况和分片情况

2、关闭节点2，测试集群状态

3、创建备份分配，关闭节点2，再测试集群状态

你可能感兴趣的:(ElasticSearch,elasticsearch,全文检索)

Springboot --- 整合spring-data-jpa和spring-data-elasticsearch 百世经纶『一页書』 Springboot Java springboot
Springboot---整合spring-data-jpa和spring-data-elasticsearch1.依赖2.配置文件3.代码部分3.1Entity3.2Repository3.3Config3.4Service3.5启动类3.6Test3.7项目结构SpringBoot:整合Ldap.SpringBoot:整合SpringDataJPA.SpringBoot:整合Elasticse
Elasticsearch 根据字段值去重前的个数过滤数据（qbit）
前言本文对Elasticsearch7.17适用假定有个ip类型的字段client_ip，需要根据字段值的个数过滤数据在query中使用script只能通过doc['client_ip']获取到去重后的个数研究发现使用runtime_mappings可以动态新建字段获取到不去重的个数示例创建索引PUTmy_index{"mappings":{"dynamic":false,"properties"
向量数据库milvus中文全文检索取不到数据的处理办法 --勇数据库 milvus 全文检索
检查中文分词配置Milvus2.5+支持原生中文全文检索，但需显式配置中文分词器：创建集合时指定分词器类型为chinesepythonschema.add_field(field_name="text",datatype=DataType.VARCHAR,max_length=65535,enable_analyzer=True,analyzer_params={"type":"chinese"}
Elasticsearch 索引文档的流程 jiedaodezhuti elasticsearch 大数据搜索引擎
Elasticsearch索引文档的流程是一个分布式、多阶段的过程，涉及客户端请求、路由、主副本同步及持久化等步骤，具体流程如下：一、客户端请求与路由1.1文档接收与路由计算‌客户端通过RESTAPI发送文档写入请求，需指定索引名、文档ID（可选）及文档内容。Elasticsearch根据文档ID（或自定义routing值）哈希计算目标主分片位置。请求被转发到主分片所在的节点（协调节点或直接定位主
Elasticsearch连接 java.net.ConnectException: Connection refused: getsockopt swany elasticsearch java .net
使用springboot连接Elasticsearch创建全文索引，总是报连接不上的问题，报错如下：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'esContentService':Unsatisfieddependencyexpressedthroughfiel
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
使用docker-compose部署elk
使用DockerCompose部署ELK（Elasticsearch、Logstash、Kibana）的好处主要体现在以下几个方面：集中管理日志数据：ELK能够帮助业务实现日志数据的集中管理，通过Elasticsearch进行搜集、分析和存储，Kibana为Elasticsearch提供图形化界面，使得日志数据的查看和分析更加直观和便捷。快速搜索和分析：ELK能够快速搜索和分析日志数据，从而提高故
Elasticsearch模糊查询、多字段in查询、时间范围查询，DSL和java API两种方式 Gzzz__ Elasticsearch elasticsearch java javascript 开发语言后端
项目场景：Elasticsearch模糊查询某字段、多字段in查询、时间范围查询，通过DSL和javaAPI两种方式解决方案：一、模糊查询wildcard通配符检索使用wildcard相当于SQL的like，前后都可拼接*，匹配0到多个任意字符{"query":{"wildcard":{"name.keyword":"*文件*"}}}BoolQueryBuilderqueryBuilder=Que
Elasticsearch从入门到精通编程界的彭于晏qaq java 数据库缓存 es
Elasticsearch从入门到精通一、引言在当今数字化时代，数据呈现出爆炸式增长的态势，如何高效地存储、检索和分析这些海量数据成为了开发者们面临的重要挑战。Elasticsearch（简称ES）作为一款强大的分布式搜索和分析引擎，凭借其出色的性能、高可扩展性和实时搜索能力，在众多领域得到了广泛的应用。而Java作为一种广泛使用的编程语言，以其强大的功能和丰富的生态系统，成为了与ES结合的首选语
6.24_JAVA_微服务_Elasticsearch搜索灰太狼Coding java 微服务开发语言
1、FinalShell工具：单向工具，能将本地连接到虚拟机。（虚拟机连不到本地）我们用docker建的容器比如MQ，比如ES，我们能够访问它们的WEB操作地址，都是因为前面的地址不是localhost，而是虚拟机的IP。比如ES端口是9200，本地访问localhost:9200会无法访问。但是输入：192.168.XXX.XXX:9200可以访问。我们操作也实际上是操作的虚拟机的数据，而不是本
解决Elasticsearch Python客户端初始化报错：URL must include a ‘scheme‘, ‘host‘, and ‘port‘ Ven% 实用篇 elasticsearch python 阿里云
文章目录问题背景错误复现错误原因分析1.Elasticsearch客户端对URL格式的严格要求2.阿里云Elasticsearch的特殊要求3.环境变量配置不完整解决方案方案一：修改环境变量（推荐）方案二：在代码中自动补全URL方案三：使用客户端的基本认证参数阿里云Elasticsearch连接最佳实践完整代码示例总结问题背景在使用Python的Elasticsearch客户端连接阿里云Elast
Elasticsearch（ES）与 OpenSearch（OS）老兵发新帖 elasticsearch 大数据搜索引擎
Elasticsearch（ES）与OpenSearch（OS）本质上是同源分叉、独立演进的技术，两者关系可概括为“起源相同、目标分化”。以下是关键要点解析：一、核心关系：分叉与独立演进起源相同OpenSearch于2021年由AWS主导，从Elasticsearch7.10.2版本分叉而来[citation:2][citation:3][citation:4]。分叉原因：Elastic公司将El
数据库存储文件的实现方式张太行_ 数据库
现代数据库不仅可以存储结构化数据（如Excel表格），还能直接存储文件、图片、视频等二进制数据，甚至支持全文检索和版本管理。以下是具体实现方式和应用场景的详解：一、数据库存储文件的3种核心方式1.BLOB类型直接存储（适合小文件）原理：使用BLOB(BinaryLargeObject)或LONGBLOB（MySQL）/VARBINARY（SQLServer）字段直接存储文件二进制内容。示例：--M
探秘Flink Connector加载机制：连接外部世界的幕后引擎 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理生态中，SourceFunction负责数据的输入源头，而真正架起Flink与各类外部存储、消息系统桥梁的，则是Connector。从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。而这一切交互的基础，都离不开背后强大且精巧的Connector加载机制。接下来，我们将深
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
ELK搭建曾燕辉 elasticsearch logstash elk elasticsearch kibana java logstash
1、elasticsearch和kibana搭建配置见https://blog.csdn.net/yh_zeng2/article/details/148812447?spm=1001.2014.3001.55012、logstash下载下载和elasticsearch版本一致的logstash，下载地址：PastReleasesofElasticStackSoftware|Elastic这里下载
Elasticsearch 结果聚合与分页机制详解亲爱的非洲野猪 elasticsearch 大数据搜索引擎
一、结果聚合原理Elasticsearch的分布式结果聚合是通过两阶段查询过程完成的：1.查询阶段（QueryPhase）分片级处理：协调节点将查询广播到所有相关分片（主分片或副本分片）每个分片独立执行查询，计算本地相关性评分各分片返回前N条结果的文档ID和评分（N=from+size）特点：使用优先级队列（Top-HitsCollector）收集结果默认返回每个分片的Top10结果（可通过pre
【Elasticsearch】请求量和延迟对搜索性能的影响及关键指标分析 G皮T #Elastic elasticsearch 大数据搜索引擎性能搜索监控运维
1.请求量对搜索性能的影响2.延迟对搜索性能的影响3.其他重要的搜索性能指标3.1吞吐量（Throughput）3.2错误率（ErrorRate）3.3召回率（Recall）3.4精确率（Precision）3.5平均响应时间（AverageResponseTime）3.6百分位延迟（PercentileLatency）3.7缓存命中率（CacheHitRatio）3.8索引新鲜度（IndexFr
阿里云Elasticsearch生产环境误删数据恢复指南 Ven% 实用篇阿里云 elasticsearch
文章目录事故场景还原数据恢复全流程第一步：查看可用快照列表第二步：恢复指定快照数据关键参数解析恢复后操作阿里云快照机制注意事项灾难预防建议本文记录了一次生产环境中误删Elasticsearch索引数据的完整恢复过程，通过阿里云自动快照功能实现数据拯救，适用于所有使用阿里云ES服务的用户。事故场景还原某次维护操作中，开发人员误执行了以下命令，导致my_index索引数据被清空：POST/my_ind
从 Elasticsearch 集群中移除一个节点 Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎全文检索数据库
作者：来自ElasticJessicaGarson解释如何从Elasticsearch集群中移除一个节点。更多阅读：Elasticsearch：如何从Elasticsearch集群中删除数据节点Elasticsearch：如何使用集群级别的分片分配过滤（不包括节点）安全地停用节点永久删除Elasticsearch中的主节点想获得Elastic认证？了解下一次ElasticsearchEnginee
Python爬虫进阶：Scrapy+Playwright+智能解析高效爬取B站游戏实况视频数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 笔记开发语言游戏音视频
摘要本文将深入讲解如何构建一个高性能B站游戏实况视频爬虫系统，涵盖从逆向工程到分布式部署的全流程。项目采用Scrapy框架作为核心，集成Playwright处理动态渲染，使用智能解析技术应对B站反爬机制，结合MongoDB和Elasticsearch构建数据存储与检索系统，最终实现每小时可处理10万+视频数据的专业级采集方案。1.B站数据生态分析1.1游戏区数据价值热门游戏实时监测UP主影响力评估
Spring Boot中动态操作Elasticsearch的实践指南携程邮轮
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何在SpringBoot框架下动态地操作Elasticsearch组件。Elasticsearch作为一款强大的分布式搜索引擎，经常用于大数据分析和实时搜索任务。通过利用SpringDataElasticsearch模块，可以简化Java应用中Elasticsearch的CRUD操作。本文将指导如何实现单个文档的增删改查、模糊查询、分页查询、特
springboot2.X集成spring data elasticsearch 向阳不像羊 spring elasticsearch java
1.准备工作在集成es之前，我们需要选择springboot对应的es版本，版本一定要选择正确，否则后面可能会出现各种各样的问题。下图是springboot与es客户端版本对应关系：我的springboot版本是2.4.10，所以这里我选择es客户端7.9.3的版本es下载链接：DownloadElasticsearch|Elasticik分词器下载链接：https://github.com/me
springboot 接入elasticsearch qq_41813060 Java ES elasticsearch spring boot java
准备环境：参考https://blog.csdn.net/weixin_44141284/article/details/121553749修改ES解压目录/config/elasticsearch.yml文件，防止cors，末尾需要添加http.cors.enabled:truehttp.cors.allow-origin:"*"1.springbootpom.xmlorg.springfram
SpringBoot整合Spring Data Elasticsearch 2501_90254160 spring spring boot elasticsearch
2.0.6.RELEASEUTF-8UTF-81.8org.springframework.bootspring-boot-starter-data-elasticsearchorg.springframework.bootspring-boot-starter-testtestorg.springframework.bootspring-boot-maven-plugin目录结构：applica
【Elasticsearch】运维监控：分片和节点 G皮T #Elastic elasticsearch 大数据搜索引擎集群监控运维分片节点
运维监控：分片和节点1.分片对集群健康的影响1.1分片分配状态1.2分片数量配置1.3分片数据均衡2.节点维度对集群健康的影响2.1节点角色失衡2.2节点资源瓶颈2.3节点故障场景3.分片与节点关联影响3.1分片-节点分布关系3.2资源竞争模型4.最佳实践建议1.分片对集群健康的影响1.1分片分配状态未分配分片：直接导致集群状态变为RED/YELLOW。案例：当5个主分片中有1个无法分配时，集群变
Node.js升级工具n 奔跑吧邓邓子高效运维工具使用 nodejs npm
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
The Elastic Stack 简介 wangyadong317 大数据 elasticsearch
AnoverviewoftheElasticStack什么是ElasticStack呢？ElasticStack是一组组件包含：Elasticsearch,Beat,APM,Kibana等是一整套技术栈的组合。从整体视角来看分为三个部分1.Ingest（吸入吸收）数据的吸收，个人理解就是数据的收集我是根据单词直译的当然可能不够信达雅2.Store数据存储，代表技术栈是ElasticSearch3.
ES数据的备份和导入猫狗熊蛇运维 es6
备份ES索引：#!/bin/bash#定义Elasticsearch地址ELASTICSEARCH_URL="http://X.X.X.X:9200"#从命令行参数获取索引名INDEX_NAME=$1BACKUP_DIR="/data/es/lastdata"#定义bulkSize和concurrency参数BULK_SIZE=500CONCURRENCY=3#从命令行参数获取偏移量OFFSET=
Elasticsearch创建快照API详解时昕海Minerva
Elasticsearch创建快照API详解elasticsearch项目地址:https://gitcode.com/gh_mirrors/elas/elasticsearch什么是快照在Elasticsearch中，快照(Snapshot)是一种备份机制，它可以将集群当前的状态和数据保存到一个外部存储系统中。快照功能对于数据备份、灾难恢复和集群迁移等场景非常重要。创建快照API概述创建快照AP
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。