在云端821

《Elasticsearch核心技术与实战》笔记

- 1、Video1：
- 2、Video2：
- 3、Video3：简介及发展历史
- 4、Video4：家族成员
- 5、Video5:安装下载
- - 逻辑设计：文档、类型和索引，对应关系型数据库的行、表、库
  - 物理设计：节点和分片，默认每个节点有5个分片和5个副本
- 6、Video6:Kibana安装
- 7、Video7:Docker容器运行ELK Stack
- 8、Video8:Logstash安装与导入数据
- 9、Video9:索引、文档和REST API
- 10、Video10:相关概念
- 11、Video11:CRUD
- 12、Video12 : 倒排索引
- 13、Video13:Ananlysis与Analyzer（分词器）
- 14、Video14:Search-Api概览
- 14、Video14:ElasticSearch之查询返回结果各字段含义
- 15、Video15:URI Search详解
- 16、Video16:Request Body和Query
- 17、Video17: Query String and Simple Query String
- 18、Video18: Dynamic Mapping和常见字段类型
- 19、Video19: 显示Mapping设置与常见参数介绍
- 20、Video20:多字段特性及Mapping中配置自定义Analyzer
- 21、Video21:Index Tamplate和Dynamic Template
- 22、Video22:ES聚合分析简介
- 23、Video23：总结
- 24.Video24:基于词项和基于全文的查询
- 25、Video25:ES中结构化搜索
- 26、Video26:搜索的相关性算分
- 27、Video:Query&Filter与多字符串多字段查询
- 28、Video28:单字符串多字段查询1
- 29、Video29:单字符串多字段查询2
- 30、Video:多语言及中文分词与检索
- 31、Video31:一次全文搜索
- 32、Video32:Search Template -解耦程序 & 搜索DSL
- 33、Video33:综合排序：Function Score Query优化算分
- 34、Video34:Term & phrase suggester
- 35、Video35:自动补全与基于上下文的提示
- 36、Video36:配置跨集群搜索
- 37、Video37:集群分布式架构及选主与脑裂
- 38、Video38:分片与集群的状态转移
- 39、Video39:文档分布式存储
- 40、Video40:分片内部原理
- 41、 Video41:剖析分布式查询及相关性算分
- 42、 Video42:排序及Doc Value & Fileddata
- 43、Video43:分页与遍历
- 44、Video44:处理并发读写操作
- 45、Video45: Buket & Metric聚合分析及嵌套聚合
- 46、Video46: Pipeline聚合分析
- 47、Video47: 聚合作用范围
- 48、Video48: 结合分析的原理及精准度问题
- 49、Video49: 对象及Nested对象
- 50、Video50: 文档的父子关系
- 51、Video51: Update By Query & Reindex
- 52、Video52: Ingest Pipeline & Painless Script
- 53、Video53:数据建模实例
- 54、Video54:数据建模
- 55、Video55:Part2总结回顾
- 56、Video56:集群身份认证与用户鉴权
- 57、Video57:集群内部安全通信
- 58、Video58:集群与外部间的安全通信
- 59、Video59:常见的集群部署方式
- 60、Video60:Hot & Warm 与Shard
- 61、Video61:分片设计与管理
- 62、Video62:如何对集群进行容量规划
- 63、Video63:在私有云上管理ES集群
- 64、Video64:在公有云上管理ES集群
- 65、Video65:生产环境常用配置
- 66、Video66:监控ES集群
- 67、Video67:诊断集群的潜在问题
- 68、 Video68解决集群Yellow和Red问题
- 69、Video69：提升集群写性能
- 70、Video70：提升集群读性能
- 71、Video71：集群压力测试
- 72、Video72:段合并的优化及相应的注意事项
- 73、Video73:缓存及使用Breaker限制
- 74、Video74：一些运维相关的建议
- 75、Video75:使用Shrink和Rollover API
- 76、Video76:索引全生命周期管理
- 77、Video77:logstash入门及价格介绍
- 78、Video78利用JDBC插件导入数据
- 79、Video79：Beats介绍
- 80、Video80:使用Index Pattern 配置数据
---------------------------------------------------------------------
SpringBoot集成ElasticSearch

1、Video1：

开源搜索引擎，for search

开箱即用：localhost:9200
- elasticsearch-head:客户端工具
  - 下载：https://github.com/mobz/elasticsearch-head
  - 安装：https://blog.csdn.net/weixin_41673498/article/details/103667541
  - 访问：http://localhost:9100
2、Video2：

开发：产品基本功能，底层原理

运维：

方案：解决大数据搜索的解决方案

elastic认证工程师。

内容：入门、集群管理、大数据分析、实战
3、Video3：简介及发展历史
- 近实时
- 分布式存储/搜索/分析引擎
  
  Solr(Apache)
  
  Splunk
  
  多编程语言类库
  
  RESTful API
- 功能：搜索、聚合
Lucene 7.x
- 跨集群复制
- 索引生命周期管理
- SQL支持
4、Video4：家族成员

ElasicSearch单独使用
与数据库集成情况：
- 与现有系统的集成
- 考虑事务性
- 数据更新频繁
5、Video5:安装下载
- Elasicsearch文件目录结构
- JVM配置

D:\elasticsearch-5.6.9\bin>elasticsearch-plugin install analysis-icu

- 查询插件：进入es安装目录的

D:\elasticsearch-5.6.9\bin>elasticsearch-plugin list

localhost:9200/_cat/plugins

开发机运行多个es实例

节点名称-集群名称-存放数据地址

bin/elasticsearch -E node.name=node1 -E cluster.name=geektime -E pah.data=nod1e_data -d
bin/elasticsearch -E node.name=node2 -E cluster.name=geektime -E pah.data=node2_data -d
bin/elasticsearch -E node.name=node3 -E cluster.name=geektime -E pah.data=node3_data -d

逻辑设计：文档、类型和索引，对应关系型数据库的行、表、库

物理设计：节点和分片，默认每个节点有5个分片和5个副本

6、Video6:Kibana安装
- 开箱即用：localhost:5601
kibana汉化配置

在kibana.yml文件最后一行加

注：5.6.9版本过低，无法通过配置汉化，只能下载汉化包汉化
```
i18n.locale: "zh-CN"
```

7、Video7:Docker容器运行ELK Stack
- Docker : ???
- cerebro : elasticsearch的监控工具
- 下载：https://github.com/lmenezes/cerebro/releases
  - 安装：开箱即用:https://www.jianshu.com/p/433d821f9667
  - 访问：localhost:9000
8、Video8:Logstash安装与导入数据
- 下载：https://www.elastic.co/cn/downloads/past-releases/logstash-5-6-9https://www.elastic.co/cn/downloads/past-releases/logstash-5-6-9
- 使用：解压后cmd进入\bin目录使用
- ```
bin/logstash -e 'input { stdin { } } output { stdout {} }'  
```
- 直接输入helloworld
- 样例：movielens.csv文件,配置config文件，将文件处理后输出到es的端口
9、Video9:索引、文档和REST API
- ES面向文档，是所有可搜索数据的最小单位(关系型中的一条记录)
- 文档被序列化JSON格式，保存在ES中
- 每个文档都有唯一的Unique ID
- Mapping定义文档的字段名和字符类型，类似于关系型数据库的表结构定义
- Setting定义不同的数据分布
10、Video10:相关概念
- 节点：本质是一个JAVA进程，生产环境建议一台机器只运行一个节点实例
  - 节点名字通过配置文件指定
  - 每个节点都会分配一个UID,保存在data目录下
  - Master Node主节点：修改集群状态信息
  - Data Node数据节点：保存分片数据
  - Coordinating Node协调节点：接收Client请求并分发到合适的节点
- 分片：运行的Lucene实例
  - 分片需要提前做好容量规划
设置分片数量和副本数量：

方案1：创建索引的时候设置
```
PUT twitter
{
    "settings" : {
        "index" : {
            "number_of_shards" : 3, 
            "number_of_replicas" : 2 
        }
    }
}
```
方案2：创建Mapping的时候设置
```
PUT test
{
    "settings" : {
        "number_of_shards" : 1
    },
    "mappings" : {
        "type1" : {
            "properties" : {
                "field1" : { "type" : "text" }
            }
        }
    }
}
```
- 集群健康状况：
  - Green:主分片和副本都正常分配
  - Yellow：主分片全部正常分配，有副本未能正常分配
  - Red：有主分片未能分配
  - Cerebro查看集群状态：localhost:9000
11、Video11:CRUD

12、Video12 : 倒排索引
- 单词词典：
- 倒排列表：
13、Video13:Ananlysis与Analyzer（分词器）
- Analyzer组成：
  - Character Filter:针对原始文本处理，例如去除html
  - Tokenizer:按照规则切分单词
  - Token Filter:将切分的单词进行加工，小写，删除sopwords
- ElasticSearch内置分词器
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6rbb893l-1615873812134)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210311095203138.png)]
  - 中文分词：
    - 在elasicsearch的插件中下载ICU Analyzer
    - ```
    Elasticsearch-plugin install analysis
```
- 从gitthub中下载IK分词器
```
    https://github.com/medcl/elasticsearch-analysis-ik
```
- THULAC分词器（清华大学）
- ```
https://github.com/microbun/elasticsearch-thulac-plugin
```

DSL:

查询操作：

查询所有数据:

GET /_search

查看集群健康信息

GET /_cat/health?v

查看集群中节点信息

GET /_cat/nodes?v

查看集群中索引信息

GET /_cat/indices?v

简化：

GET /_cat/indices?v&h=health,status,index

索引操作

创建索引

PUT /baizhi

删除索引

DELETE /baizhi

14、Video14:Search-Api概览
- URI Search
  - 在URL中使用查询参数
- Request Body Search
  - DSL，Elesticsearch提供，给予json格式
- 语法：
- 搜索的响应：

搜索的排序，谷歌采用Page Rank算法
- 相关性衡量：

14、Video14:ElasticSearch之查询返回结果各字段含义

ES为了搜索提供了两大类api:URL search 和 Request Body Search

ElasticSearch查询返回结果各个字段的含义

GET /_search

结果略。从上到四个返回值，took，timed_out，_shards，hits。

took：该命令请求花费了多长时间，单位：毫秒。
timed_out:搜索是否超时
_shards:搜索分片信息
1. total:搜索分片的总数
2. successful:搜索成功的分片数量
3. skipped:没有搜索的分片，即跳过的分片
4. failed:搜索失败的分片数量
hits:搜索结果集，项目中一切数据都是从hits中获取
1. total：返回多少条数据
2. max_score:返回结果中最大的匹配度分值
3. _index：索引库名称（库名）
4. _type：类型名称（表名）
5. _id:该条数据的id
6. _score:关键字与该条数据的匹配度分值
7. _source:索引库中类型，返回结果字段

15、Video15:URI Search详解

通过URI query实现搜索，请求格式为：请求格式是 curl -XGET ip地址/索引/文档类型/_search?q=查询字段:查询条件
即在url 中拼接 “q” 跟着要查询的条件
查询条件格式为：查询字段:查询值 (key:value 格式)

curl -XGET http://localhost:9200/kibana_sample_data_ecommerce/_search?q=customer_first_name:Eddie

指定字段查询 / 泛查询
```
q=title:2012    /    q=2012
```
```
GET /movies/_search?q=2012&df=title
{
	"profile":"ture"
}
```
// 泛查询，正对_all,所有字段
```
GET /movies/_search?q=2012
```
// 指定字段
```
GET /movies/_search?q=title:2012
{
	"profile":"true"
}
```
Type:Disjunction Max Query:分离最大化查询:将任何与任一查询匹配的文档作为结果返回，但只将最佳匹配的评分作为查询的评分结果返回。弥补bool查询的不足
TermQuery:分词精确查询，如：查询hotelName分词后包含hotel的term文档

QueryBuilders.termQuery("hotelName","hotel")

Terms Query:多term查询，查询hotelName 包含 hotel 或test 中的任何一个或多个的文档

QueryBuilders.termsQuery("hotelName","hotel","test")

// 使用引号，parase

```dsl
GET /movies/_search?q=title:"Beautiful Mind"
{
	"profile":"true"
}
```

Beautiful和Mind是or的关系，Beautiful是指定字段查询，Mind是泛查询,结果描述是泛查询

```dsl
GET /movies/_search?q=title:Beautiful Mind
{
	"profile":"true"
}
```

   ```dsl
GET /movies/_search?q=title:(Beautiful Mind)
{
	"profile":"true"
}
```


- 分组与引号：

注：profile API 是 Elasticsearch 5.x 的一个新接口。通过这个功能，可以看到一个搜索聚合请求，是如何拆分成底层的 Lucene 请求，并且显示每部分的耗时情况。
可以通过在 query 部分上方提供 “profile: true” 来启用Profile API。

Bool分组查询，可合并多个查询语句，格式如下

{
   "query":{
       "bool":{
           "must":[

           ],
           "should":[

           ],
           "must_not":[

           ],
           "filter":[

           ],
           "minimum_should_match":0
       }
   }
}

- 布尔与分组

GET /movies/_search?q=year:>190
{
	"profile":"true"
}

GET /movies/_search?q=title:b*
{
	"profile":"true"
}

16、Video16:Request Body和Query

Request Body Search

“match_all”:{} :匹配所有文档

分页
排序

// 对日期进行排序
POST kibana_sample_data_ecommerce/_search
{
	"sort":[{"order_date":desc}],
	"query":{
		"match_all":{}
	}
}

对source的内容进行过滤，场景：有些时候不需要返回那么多字段，所以需要过滤掉不需要的字段，只返回需要的字段，类比select。
source filtering

POST kibana_sample_data_ecommerce/_search
{
	"_source":[order_date"],
	"query":{
		"match_all":{}
	}
}

脚本字段script filed:动态是计算，模板
-：

"script": {
	"lang":   "...",  
	"source" | "id": "...", 
	 "params": { ... } 
}

lang：代表language脚本语言，默认指定为：painless。
source：脚本的核心部分，id应用于：stored script。
params：传递给脚本使用的变量参数。

使用查询表达式-Match

短语搜索 - Match Phrase：和match查询类似，match_phrase查询首先解析查询字符串来产生一个词条列表。然后会搜索所有的词条，但只保留包含了所有搜索词条的文档，并且词条的位置要邻接。

“slop”：1表示短语中单词之间可以有一个其他字符

17、Video17: Query String and Simple Query String

Query String 类似于Query
Simple Query String

18、Video18: Dynamic Mapping和常见字段类型

Mapping的理解

Dynamic Mapping动态映射机制是什么？
当Elasticsearch 遇到文档中以前未遇到的字段，它用 dynamic mapping（动态映射）来确定字段的数据类型并自动把新的字段添加到类型映射。

能否更改Mapping的字段类型？
- 控制Dynamic Mapping
字段的数据类型

19、Video19: 显示Mapping设置与常见参数介绍

如何定义一个Mapping?

PUT movies{
  "mapping":{
    // define your mappings here
  }
}

自定义Mapping的建议：

参考API手册，纯手写
手写步骤：
1）. 创建一个临时的index，写入一些样本数据
2）.通过访问Mapping API获取该临时文件的动态Mapping定义
3）.修改ES不正确的定义，使用该配置创建索引
4）.删除临时索引

20、Video20:多字段特性及Mapping中配置自定义Analyzer

多字段类型
如：为一个字段增加一个子字段keyword，为某些字段加上用英文或者拼音的方式进行分词
精确值和全文本（Exact Value vs Full Text）
注：精确值不需要做分词处理
自定义分词器
当ES自带的分词器无法满足时自定义分词器，实现：通过自组合不同的组件实现。
ES中默认的Character Filters(字符过滤器)：在Tokenizer之前对文本进行处理，例如增加删除及替换字符，可以配置多个Character Filter，但这样会影响Tokenizer的Position和offset信息
一些自带的Character Filter: HTML strip（去除html标签），Mapping(字符串替换)、Pattern replace(正则匹配替换)
设置一个自己的Custom Analyzer

21、Video21:Index Tamplate和Dynamic Template

Index template定义在创建新index时可以自动应用的settings和mappings
- 模板只有在一个索印被创建时才起作用，修改模板不会影响已创建的索引
- 可以设置多个索引模板，这些设置会被“merge”在一起
- 可以指定“order”的数值，控制“merging”的过程
Dynamic template根据ES自动识别的数据类型，结合字段名称，动态设定字段类型
- 所有的字符串类型都设置成keyword，或者关闭keyword字段
- is开头的字段都设置成boolean
- long_开头的都设置成long型

22、Video22:ES聚合分析简介

ES除搜索之外，提供了针对ES数据进行统计分析的功能（Aggregation）
集合的分类
- Bucket : 对应GROUP BY brand，一组满足条件的文档
Metric ：对应SELECT COUNT(brand) from cars，一些系列的统计方法

23、Video23：总结

Answer:

错，需要用POST创建
错，Update文档，使用POST，PUT只能用来做Index或者Create
对
默认情况下，会创建相应的索引，并且自己设置Mapping，当然，实际情况还要看是否有合适的Index Template
ES7中只能有一个type，合法的是_doc
精确值不会被Analyzer分词的，全文本会被分词
三部分：Character Filter–>Tokenizer–>Token Filter

Answer:
8. Match中terms之间是or的关系，Match phrase的terms之间是and的关系，并且term之间的位置关系也会之间影响搜索的结果
9. slop
10. 直接报错
11. 文档被索引，新增的字段在_source中可见，但是该字段无法被搜索
12. 错，字段类型修改，需要reindex操作
13. 对，在Mapping文件中可以为indexing和searching指定不同的analyzer

24.Video24:基于词项和基于全文的查询

基于Term的查询：Term是表达语意的最小单位，搜索和利用统计语言模型进行自然语言处理都需要处理term
基于全文的查询：

25、Video25:ES中结构化搜索

范围查询：rang
query filter term搜索对文本不分词，直接拿去倒排索引匹配，你输入的是什么就去匹配什么

26、Video26:搜索的相关性算分

27、Video:Query&Filter与多字符串多字段查询

复合查询：bool Query
-
如何解决结构化查询-“包含而不是相等”问题
bool Query支持嵌套
- 查询语句的结构，会对相关度算法产生影响
-- 同一层级下的竞争字段，具有相同的权重
通过嵌套bool查询，可以改变对算分的影响
通过设定每个字段的boosting的值可以控制相关度的算分，该值越大，算分越高

“explain”: true,:查看如何算分

28、Video28:单字符串多字段查询1

以上算分的过程：

查询should语句中的两个查询
两个平均的查询相加
乘以匹配语句的总数
除以所有语句的总数

上例中，title和body互相竞争：不应该将分数简单叠加，而是应该找到单个最佳匹配的字段的评分

Disjunction Max Query查询：将任何与任一查询匹配的文档作为结果返回。采用字段上最匹配的评分作为最终算分返回
当最大评分相同时，如
可以通过Tie Breaker参数调整
Tie Breaker是一个介于0-1之间的浮点数。0代表使用最佳匹配，1代表所有语句同等重要，示例如下：

获得最佳匹配语句的评分
将其他匹配语句的评分与tie_breaker相乘
对以上评分求和并规范化

29、Video29:单字符串多字段查询2

Multi Match Query(多字段查询)
多字段查询也会进行分词，其中type的设置如下：
在搜索语句的filed，通过控制字段的权重，可以终止算分结果的返回。
组合两个字段可以使用copy_to将两个字段合并到full_name中去，但会造成磁盘额外的开销
cross_filed支持使用Oprator,可以为单个字段提升权重

30、Video:多语言及中文分词与检索

自然语言与查询Recall
- 混合多语言的挑战
-
分词的挑战
中文分词方法的演变—字典法

中文分词方法的演变—基于统计法的机器学习算法

HanLP–面向生产环境的自然语言处理工具包
http://hanlp.com/.
https://github.com/KennFalcon/elasticsearch-analysis-hanlp.
IK分词器
https://github.com/medcl/elasticsearch-analysis-hanlp.

icu
pinyin

31、Video31:一次全文搜索

搜索结果的分析
一个模型或者算法不是全适应的
，算法和模型的配合找最优解。

32、Video32:Search Template -解耦程序 & 搜索DSL

Search Template:可以将一些搜索模板化，每次执行这些搜索，可以直接调用模板，传入一些参数即可，从而实现程序解耦。
语法:

search template："{{field}}" : "{{value}}"

示例

GET /blog_website/blogs/_search/template
{
  "inline" : {
    "query": { 
      "match" : { 
        "{{field}}" : "{{value}}" 
      } 
    }
  },
  "params" : {
      "field" : "title",
      "value" : "博客"
  }
}

相当于

GET /blog_website/blogs/_search
{
  "query": { 
    "match" : { 
      "title" : "博客" 
    } 
  }
}

Index Alias

33、Video33:综合排序：Function Score Query优化算分

注：当算分差别非常大的时候，可以通过Modifier平滑曲线

引入factor，更好的控制算分曲线

Boost Mode 和Max Boost
– ES可以指定一个字段，该字段的算分作为主要的参考依据
一致性随机函数
让每个用户能看到不同的***随机排名***，对于同一用户的访问，结果的相对顺序保持一致
只要“seed”的值不变，搜索的结果相对顺序保持一致

34、Video34:Term & phrase suggester

ES Suggester API
-原理：将输入的文本分解为Token，然后在索引的字典里查找相似的Term并返回。
ES设计了四种类别的Suggester

Term & phrase suggester
Complete & Context Suggester

Term suggester mode
- 过程：用户输入一个错误的拼写到指定字段搜索，当搜索不到时会根据suggest-mode返回建议的词

phrase suggester

35、Video35:自动补全与基于上下文的提示

Completion Suggester:提供了自动完成的功能。用户每输入一个字符，就需要即时发送一个查询请求到后段查找匹配项。
注意：对性能要求苛刻，ES采用了不同的数据结构，并非通过倒排索引来完成，而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个加载进内存，速度很快。
FST只能用于前缀查找。
解释：FST是lucene中用来存储字典，并进行检索的核心数据结构，FST本质上是一个比HashMap有更强大功能keyvalue存储结构
使用步骤：

定义Mapping，使用"completion" type
索引数据
运行“suggest”查询，得到搜索建议

Context Suggester

– 对比

精准度：Completion>Phrase>Term
召回率：Term>Phrase>Completion
性能：Completion>Phrase>Term

36、Video36:配置跨集群搜索

水平拓展痛点：

单集群：水平拓展时，节点不能无限增加。因为当集群的meta信息过多，会导致更新压力变大，单个Active Master会成为性能瓶颈，导致整个集群无法工作
跨集群搜索：Cross -cluster search,ES5.3引入
允许任何节点扮演federated节点，以轻量的方式，将搜索请求代理。
不需要以client node的方式加入
配置及查询
本地启动3个集群

37、Video37:集群分布式架构及选主与脑裂

ES分布式架构：
- 不同的集群通过不同的名字来区分，默认名字是“elasticsearch”
- 通过配置文件来修改，或者在命令行中-E cluster.name=newName
节点：
Coordinating Node：处理请求的节点，索引节点都默认是此节点通过将其他类型设置为false.使其成为Dedicated Coordinating Node
Data Node : 可以保存数据的节点，节点启动后默认就是数据节点，通过设置node.data:false禁止
Data Node的职责：保存分片数据，由Master决定如何把分片分发到数据节点上。通过增加数据节点，可以解决数据水平拓展和解决数据单点问题。
Master Node
Master eligible Node & 选主流程
集群状态信息（cluster state）保存有

所有的节点信息
所有的索引和其相关的Mapping和Setting信息
分片的路由信息

在每个节点都保存了集群的状态信息，但只能由Master Node才能修改状态信息并同步至其他节点。
选主流程：
脑裂问题
- 脑裂问题解决方案
配置节点类型

38、Video38:分片与集群的状态转移

Primary shard-提升系统储存容量
Replica shard-提高数据可用性
分片数的设定：
注：副本分片必须和主分片分配到不同节点上，这样才能保证数据不会产生丢失，否则集群状态为Yellow

注：Master决定分片会分配到哪个节点。

故障转移：

39、Video39:文档分布式存储

文档会存储在具体的某个主分片和副本分片上，例如文档1，存储在P0和R0上。
文档到分片的映射算法：
文档到分片的路由算法：

shard=hash(_rounting)%number_of_primary_shards

不能修改Primary的原因是因为文档到分片的路由算法是由主分片数计算出来的

更新文档的流程：
删除文档请求

40、Video40:分片内部原理

ES中最小的工作单元是一个Lucene index ，一个分片就是一个Lucene index
问题1：为什么ES的搜索是近实时的？
Refresh频率默认1s/次
Refresh:
问题2：ES如何保证断电时数据也不丢失？
Transaction Log:
问题3：为什么删除文档，并不会立刻释放空间？
删除的文件保存在.del文件中，flush才会被彻底删除
倒排索引不可变性
倒排索引一旦生产，不可更改。
好处：

无需考虑并发写文件的问题，避免了锁机制带来的性能问题。
一旦读入内核的文件系统缓存，便留在那里，只要文件系统有足够的空间，大部分请求直接请求内存，不会命中磁盘，提升了性能。
缓存容易生成和维护/数据可以被压缩。

坏处：如果让一个新文档可以被搜索，需要重建整个索引。
Flush
Merge

41、 Video41:剖析分布式查询及相关性算分

分布式搜索运行机制（两个阶段）：

阶段1：Query

阶段2：Fetch

Query then Fetch潜在问题

性能问题
相关性算分

解决相关性算分不准的方法

42、 Video42:排序及Doc Value & Fileddata

排序：

默认情况下，ES根据算法进行降序排序
可以通过设定sorting参数，自行设定排序
如果不指定_score , 算分为null

排序的过程

排序是针对字段原始内容进行的，倒排索引无法发挥作用
需要用到正排索引，通过文档Id和字段快速得到字段原始内容

ES排序的实现方法

Fileddata（如果对Text类型字段排序，需要把Fileddata设置为true）
Doc value(列式储存，对Text类型无效)

Doc value VS Fileddata
关闭Doc value：
注意事项：
1. Doc value默认启用，可以通过Mapping设置关闭
  优点：增加索引速度，减少内存空间
2. 如果重新打开，需要重建索引
3. 明确不需要做排序和聚合分析时关闭

43、Video43:分页与遍历

From / Size

默认情况下，查询按照相关度算分排序，返回前10条记录
容易理解的分页方案：
From:开始的位置
Size：期望获取文档的总数

分布式系统中深度分页的问题
如何避免深度分页:Search After API
Scroll API
不同搜索类型和使用场景

Regular：需要实时获取顶部的部分文档，例如查询最新的订单
Scroll：需要全部文档，例如导出全部数据
Paginatuion：From和Size，如果需要深度分页，则选用Search API

44、Video44:处理并发读写操作

通过_version版本号的方式进行乐观锁并发控制
在es内部第次一创建document的时候，它的_version默认会是1，之后进行的删除和修改的操作_version都会增加1。可以看到删除一个document之后，再进行同一个id的document添加操作，版本号是加1而不是初始化为1，从而可以说明document并不是正真地被物理删除，它的一些版本号信息一样会存在，而是会在某个时刻一起被清除。
es提供了一个外部版本号的乐观控制方案来替代内部的_version:

?version=1&version_type=external

内在version和外部version区别：
对于内在_version=1，只有在后续请求满足?_version=1的时候才能够更新成功；对于外部_version=1，只有在后续请求满足?_version>1才能够修改成功，即必须大于对应的版本才可以进行修改。

45、Video45: Buket & Metric聚合分析及嵌套聚合

bucket：一个数据分组，类似于group by user_id --> 那些user_id相同的数据，就会被划分到一个bucket中
metric：对一个数据分组执行的统计，类似于count(*)，对每个user_id bucket中所有的数据，计算一个数量

"aggregations" : {                  // 表示聚合操作，可以使用aggs替代
    "" : {        // 聚合名，可以是任意的字符串。用做响应的key，便于快速取得正确的响应数据。
        "" : {    // 聚合类别，就是各种类型的聚合，如min等
            <aggregation_body>      // 聚合体，不同的聚合有不同的body
        }
        [,"aggregations" : { [<sub_aggregation>]+ } ]? // 嵌套的子聚合，可以有0或多个
    }
    [,"" : { ... } ]* // 另外的聚合，可以有0或多个
}

-注：聚合是和查询同等级的

例：

curl -XPOST "192.168.1.101:9200/student/student/_search" -d 
'
{
  "query": {         // 可以先使用query查询得到需要的数据集
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "min_age": {
      "min": {
        "field": "age"
      }
    }
  }
}
'

46、Video46: Pipeline聚合分析

支持对聚合分析的结果，再次进行聚合分析；
Pipeline 的分析结果会输出到原结果中，根据位置的不同，分为两类
- Sibling - 结果和现有分析结果同级
  - max / min / avg & sum bucket
  - stats / extended status bucket
  - percentiles bucket
- Parent - 结果内嵌到现有的聚合分析结果之中
  - Derivate - 求导
  - Cumultive Sum - 累计求和
  - Moving Function - 滑动窗口
例1：平均工资最低的工资类型 | sibling Pipeline

POST employees/_search
{
  "size": 0,
  "aggs": {
    "jobs": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      },
      "aggs": {
        "avg_salary": {
          "avg": {
            "field": "salary"
          }
        }
      }
    },
    "min_salary_by_job":{
      "min_bucket": {
        "buckets_path": "jobs>avg_salary"
      }
    }
  }
}

例2：平均工资的平均工资 | Sibling Pipeline

POST employees/_search
{
  "size": 0,
  "aggs": {
    "jobs": {
      "terms": {
        "field": "job.keyword",
        "size": 10
      },
      "aggs": {
        "avg_salary": {
          "avg": {
            "field": "salary"
          }
        }
      }
    },
    "avg_salary_by_job":{
      "avg_bucket": {
        "buckets_path": "jobs>avg_salary"
      }
    }
  }
}

例3：按照年龄对平均工资求导 | Parent Pipeline

POST employees/_search
{
  "size": 0,
  "aggs": {
    "age": {
      "histogram": {
        "field": "age",
        "min_doc_count": 1,
        "interval": 1
      },
      "aggs": {
        "avg_salary": {
          "avg": {
            "field": "salary"
          }
        },
        "derivative_avg_salary":{
          "derivative": {
            "buckets_path": "avg_salary"
          }
        }
      }
    }
  }
}

47、Video47: 聚合作用范围

聚合的作用范围

ES 聚合分析的默认作用范围是 query 的查询结果集
ES 还支持以下方式改变聚合的作用范围
1. Filter
2. Post_Filter
3. Global
  参考：

链接: https://blog.csdn.net/xixihahalelehehe/article/details/114411134.

排序
指定orde，默认情况下按照降序排序
指定size，就能返回相应的桶
ES内部排序

_count：这个参数对应的就是doc_count

GET /cars/transactions/_search
{
  "size":0,
  "aggs":{
   "popular_colors":{
     "terms": {
       "field": "color",
       "order": {             ---表示要对聚合结果做排序
         "_count": "desc"     ---排序字段是doc_count，顺序是降序
       }
     }
   } 
  }
}

_key：在区间聚合的时候(histogram或者date_histogram)，可以根据桶的key做排序：_key：在区间聚合的时候(histogram或者date_histogram)，可以根据桶的key做排序：

GET /cars/transactions/_search
{
  "size": 0,
  "aggs": {
    "price": {
      "histogram": {           ---区间聚合
        "field": "price",      ---取price字段的值
        "interval": 20000,     ---每个区间的大小是20000
        "order": {             ---表示要对聚合结果做排序
          "_key": "desc"       ---排序字段是桶的key值，这里是每个区间的起始值，顺序是降序
        }
      }
    }
  }
}

48、Video48: 结合分析的原理及精准度问题

min 聚合分析的执行流程
Terms Aggregation | 返回参数中的 2 个特殊值
- doc_count_error_upper_bound：被遗漏的分桶中可能包含的文档数的最大数；
- sum_other_doc_count：除了返回结果中的 Bucket 中的文档以外，其他文档的数量（索引中总文档数 - 桶中返回的文档数）；
Terms Aggregation | 执行流程

注：返回分桶中文档数最大的 3 个分桶；结果不一定准确；

Term聚合不正确的案例：
文档数最多的 3 个桶应该是 A，B，D，但是 Terms 聚合的结果是 A，B，C；
doc_count_error_upper_bound | 举例分析
左边的分片中，选出来的文档数最大的 3 个桶中的文档数分别是：6, 4, 4，那么遗漏的文档数最大可能就是 4；
右边的分片中，选出来的文档数最大的 3 个桶中的文档数分别是：6, 3, 2，那么遗漏的文档数最大可能就是 2（图中有错）；
sum_other_doc_count | 举例分析
索引中全部文档数 - 返回的 3 个桶中的文档总数，29 - 22 = 7；
解决 Terms 聚合不准的问题 | 提升 shard_size 的参数
Terms 聚合分析不准的原因：
数据分散在多个分片上，Coordinating Node 无法获取数据的全貌；
解决方法1：
当数据量不大时，设置 Primary Shard 数为 1，实现准确性；
解决方法2：
当数据分布在多个 Primary Shard 上时，设置 shard_size 参数，提升准确性，其原理是：每次从 Shard 上额外多获取数据，提升准确率；
参数 | shard_size | 设定
通过调大 shard_size 的大小，使得 doc_count_error_upper_bound 的值降低，从而提升准确度，其原理是：增加整体计算量，提高精准度的同时会降低响应时间；
shard_size 默认大小
shard_size = size * 1.5 + 10

49、Video49: 对象及Nested对象

对象类型
使用json、json数组作为字段值，动态映射会默认使用对象类型（type object）。

参考:https://blog.csdn.net/liuhe2296044/article/details/103745740?utm_source=app&app_version=4.5.5

50、Video50: 文档的父子关系

对象 | Nested 对象 | 局限性
每篇博客的文档中，包含作者信息，当作者信息变更时，整个博客文档都需要变更；
Parent & Child
- ElasticSearch 中提供了类似关系型数据库中 Join 的实现，使用 Join 数据类型实现，可以通过维护 Parent / Child 的关系，从而分离两个对象；
- 父文档和子文档是两个独立的文档；
- 更新父文档，无需重新索引子文档；子文档被添加、更新或删除也不会影响到父文档和其他的子文档
定义父子关系的步骤
- 设置索引的Mapping
- 索引父文档
- 索引子文档
- 按需查询文档
文档父子关系实例:
- “type”: “join” 指定这是一个父子文档；
- relations 中 “blog”: “comment” 指明 blog 是父文档，comment 是子文档；

DELETE my_blogs
 
PUT my_blogs
{
  "settings": {
    "number_of_shards": 2
  },
  "mappings": {
    "properties": {
      "blog_comments_relation": {
        "type": "join",
        "relations": {
          "blog": "comment"
        }
      },
      "content": {
        "type": "text"
      },
      "title": {
        "type": "keyword"
      }
    }
  }
}

参考链接：https://blog.csdn.net/weixin_33669968/article/details/106422331?utm_source=app&app_version=4.5.5

51、Video51: Update By Query & Reindex

重建索引的场景
- 索引的Mapping发生变更：字段类型更改，分词器及字典更新
- 索引的Setting发生变更：索引的主分片数发生变更
- 集群内、集群间需要做数据迁移
重建索引的API: Update By Query Reindex
Update By Query ：在现有索引上重建

POST 索引/索引类型/_update_by_query
{
  "script": {
    "source": "ctx._source['修改的字段名'] = '修改后的值'"
  },
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "查询条件此处为字段名": "字段的值"
          }
        }
      ],
      "must_not": [],
      "should": []
    }
  }
}

查询index索引，type等于index_type中数据满足field=value的数据，修改其中field=test，对应的就是关系型数据库的update set … where…语句；

Reindex：在其他索引上重建索引
Reindex基础实现： _reindex会将一个索引的快照数据copy到另一个索引，默认情况下存在相同的_id会进行覆盖（一般不会发生，除非是将两个索引的数据copy到一个索引中），

POST _reindex
{
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new"
  }
}

52、Video52: Ingest Pipeline & Painless Script

Elasticsearch可以使用自身的Ingest Pipeline功能进行数据预处理, 无须借助Logstash.
Ingest Pipeline介绍：Ingest Pipeline 就是在文档写入Data Node之前进行一系列的数据预处理, 进行数据预处理的就是processor, 一组处理器构成了Pipeline. 所有的预处理都在Ingest Node上执行, 默认情况下所有节点都是Ingest Node.
- 常用的process
split processor
字符串切分成数组
join processor
数组转化成字符串
gsub processor
字符串替换
set processor
创建或替换一个字段.
remove processor
移除一个字段
rename processor
重命名一个字段
lowercase processor
字符串小写化
upcase processor
字符串大写化
script processor
使用painless脚本进行复杂的处理
语法：

创建Pipeline

PUT /_ingest/pipeline/my_pipeline_id
{
  "description": "to split blog tags",
  "processors": [
    {
      "split": {
        "field": "tags",
        "separator": ","
      }
    }
  ]
}

description是对pipeline的描述, processors定义了一组处理器.

painless脚本定义Processor : Elasticsearch内置了很多processor, 可以进行一些简单的数据预处理, 但如果我们想进行复杂的数据预处理, 就需要使用painless脚本来自定义processor.
(1). 创建Pipeline:
使用painless脚本来自定义一个processor, 如果存在一个content的字段, 则新增一个content_length, 值为content字段值的长度.

PUT /_ingest/pipeline/my_pipeline_id
{
 "description": "to split blog tags",
 "processors": [
   {
     "split": {
       "field": "tags",
       "separator": ","
     }
   },
   {
     "script": {
       "source": """
         if(ctx.containsKey("content")){
           ctx.content_length = ctx.content.length();
         }else{
           ctx.content_length = 0;
         }
       """
     }
   }
 ]
}

(2)新增文档

PUT /blogs/_doc/1?pipeline=my_pipeline_id
{
 "title": "Introducing big data......",
 "tags": "hadoop,elasticsearch,spark",
 "content": "You konw, for big data"
}

PUT /blogs/_doc/2?pipeline=my_pipeline_id
{
 "title":"Introducing cloud computering",
 "tags":"openstack,k8s",
 "content":"You konw, for cloud"
}

(3) 查看文档

GET /blogs/_search

(4)结果：

"hits" : [
  {
    "_index" : "blogs",
    "_type" : "_doc",
    "_id" : "1",
    "_score" : 1.0,
    "_source" : {
      "title" : "Introducing big data......",
      "content" : "You konw, for big data",
      "content_length" : 22,
      "tags" : [
        "hadoop",
        "elasticsearch",
        "spark"
      ]
    }
  },
  {
    "_index" : "blogs",
    "_type" : "_doc",
    "_id" : "2",
    "_score" : 1.0,
    "_source" : {
      "title" : "Introducing cloud computering",
      "content" : "You konw, for cloud",
      "content_length" : 19,
      "tags" : [
        "openstack",
        "k8s"
      ]
    }
  }
]

Ingest Pipeline 和 Logstash 的对比

53、Video53:数据建模实例

数据建模概念
- 数据建模：功能需求+性能需求
- 如何对字段进行建模步骤：

字段类型
是否要搜索及分词
是否要聚合及排序
是否要额外的存储

选择字段类型
字段类型：结构化数据
检索的角度：
聚合及排序的角度
额外的存储角度
数据建模实例理解

创建一个文档：关于图书的信息
2. 优化字段设定：cover_url不会被检索
3. 需求变更：增加字段处理办法

- Mapping字段的设置

- 一些相关的API

54、Video54:数据建模

- 建模建议（1）：如何处理关联关系

注：Kibana目前不支持nested类型和parent/child类型，未来可能会支持。

- 建模建议（2）：避免过多字段
- 导致文档中有成百上千的字段原因：
Dynamic VS Strict

解决方案：Nested Object & Key Value
存在的不足：
- 建模建议（3）：避免正则查询
- 解决方案：将字符串转换为对象

建模建议（4）：避免空值引起的聚合不准

建模建议（5）：为索引的Mapping加入Meta信息

55、Video55:Part2总结回顾

搜索与算分
 - 聚合/分页
- ES分布式模型
数据建模及重要性

56、Video56:集群身份认证与用户鉴权

用户文档信息泄露原因：
1. ES在默认安装后，不提供任何形式的安全防护
1. 错误的配置信息导致公网可以访问集群：在elasticsearch.yml文件中，server.host被错误的配置为0.0.0.0
数据安全的基本需求
免费方案：
- Authtication - 身份认证
RBAC - 用户鉴权
使用Security API创建用户
开启并配置X-Pack的认证与鉴权

57、Video57:集群内部安全通信

ES内部是通过9300端口进行数据传输
避免数据抓包，敏感信息泄露
避免Impostor Node

58、Video58:集群与外部间的安全通信

配置ES for HTTPS

59、Video59:常见的集群部署方式

节点参数配置
单一职责的节点
单一角色：职责分离的好处

60、Video60:Hot & Warm 与Shard

Hot Nodes
用于数据的写入，
- Indexing对CPU和IO都有很高的要求，所以需要使用高配置的机器
- 储存的性能要好，建议使用SSD
Warm Nodes
用于保存只读索引
- 通常使用大容量的磁盘（通常是Spinning Disks）
配置Hot & Warm Architecture
- 使用Shard Filtering 步骤分为以下几步
  - 标记节点
  - 配置索引到Hot Node
  - 配置索引到Warm Node

Rack Awareness
标记Rack节点+配置集群
Shard Filtering

61、Video61:分片设计与管理

ES7.0开始，新建一个索引时，默认创建一个分片
单分片：
- 好处：查询算分，聚合不准问题都可以得到避免
- 坏处：单索引单分片时，集群无法实现水平扩展
集群增加一个节点后，ES会自动进行分片的移动
如何设计分片？
案例：
分片过多的副作用
ES官方确定主分片数
ES官方确定副分片数
调整分片总数设定，避免分配不均衡

62、Video62:如何对集群进行容量规划

容量规划
评估业务的性能需求
常见用例
硬件配置
部署方式
容量规划案例

拆分索引
集群扩容

63、Video63:在私有云上管理ES集群

管理单个集群
ECE:管理多个ES集群
Kubernetes:
构建自己的管理系统

64、Video64:在公有云上管理ES集群

65、Video65:生产环境常用配置

Development VS Production Mode
Bootstrap Checks
JVM设定
集群的API设定
系统设置
参考官方手册
网络
内存设定计算实例
存储
服务器硬件
Throttles限流
关闭Dynamic Indexes
集群安全设定

66、Video66:监控ES集群

ES stas 相关的API
ES Task 相关的API
The index & Query Slow Log
- 支持将分片上Search和Fetch阶段的慢查询写入文件
- 支持为Query和Fetch分别定义阈值
- 索引级的动态设置，可以按需设置，或者通过Index Template统一设定
- Slog log 文件通过log4j2.properties配置
如何创建监控Dashboard

67、Video67:诊断集群的潜在问题

集群运维所面临的挑战

68、 Video68解决集群Yellow和Red问题

集群健康度
-
Health相关的API
案例分析
集群变红：

集群变黄

分片没有被分配的一些原因
常见问题与解决方法

69、Video69：提升集群写性能

提升写性能的方法
服务器端优化写入性能的一些手段
关闭无关功能
针对性能的取舍
数据写入过程
分片的设定
Bulk，线程池和队列大小
一个索引设定的例子

70、Video70：提升集群读性能

尽量Denormalize数据
数据建模

优化分片

71、Video71：集群压力测试

- 测试目标
- 测试脚本
- ES Rally

72、Video72:段合并的优化及相应的注意事项

Merge优化
Force Merge

73、Video73:缓存及使用Breaker限制

Es的缓存
Node Query Cache
Shard Query Cache
Fileddata Cache
缓存失效
管理内存的重要性

诊断内存情况
常见内存问题
Circuit Breaker(断路器)

74、Video74：一些运维相关的建议

集群的生命周期管理
部署的建议
遵循的规范

数据备份
定期更新新版本
ES的版本
升级方法
Full Restart 步骤

移动分片
移除节点
控制Allocation和Recovery
Synced Flush
清空节点上的缓存
控制搜索的队列

设置Circuitt Breaker

75、Video75:使用Shrink和Rollover API

索引管理API
shrink API
Rollover API

76、Video76:索引全生命周期管理

时间序列的索引
索引常见的生命阶段
ES Curator

77、Video77:logstash入门及价格介绍

Logstash concepts
- logstash架构
logstash配置文件结构
Input Plugins
Out plugins

Codec Plugind
Filter Plugins
Queue
-
多Pipeline实例
logstash Queue
Codec Plugin -single Line
Codec Plugin -multiline
Filter Plugin

78、Video78利用JDBC插件导入数据

79、Video79：Beats介绍

Packbeat

80、Video80:使用Index Pattern 配置数据

---------------------------------------------------------------------

SpringBoot集成ElasticSearch

6.0以上版本的ElasticSearch直接导入依赖

		<dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-data-elasticsearchartifactId>
        dependency>

6.0以下2版本的ElasticSearch依赖配置

		<dependency>
            <groupId>org.elasticsearch.clientgroupId>
            <artifactId>transportartifactId>
            <version>5.6.9version>
        dependency>
        
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-coreartifactId>
            <version>6.6.1version>
        dependency>
        
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-highlighterartifactId>
            <version>6.6.1version>
        dependency>
        
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-queriesartifactId>
            <version>6.6.1version>
        dependency>

注：版本号获取

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NuxCkTIB-1615873812156)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210312112549525.png)]

你可能感兴趣的:(ElasticSearch)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Grafana仪表盘设计最佳实践：如何创建有效的监控面板范范0825 grafana 信息可视化
Grafana仪表盘设计最佳实践：如何创建有效的监控面板引言Grafana是一个开源的数据可视化和监控平台，它提供了丰富的仪表盘功能，用于展示和分析各种数据源（如Prometheus、InfluxDB、Elasticsearch等）。有效的仪表盘设计能够帮助团队迅速识别和解决问题，提高系统的可靠性和性能。本文将深入探讨如何设计高效的Grafana仪表盘，涵盖最佳实践和实际应用。1.了解需求和目标1
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
Elasticsearch——配置详解 smart哥 elasticsearch专题 elasticsearch 搜索引擎
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析阶段5、深入jvm源码解析码哥源码部分码哥讲源码-原理源码篇【2024年最新大厂关于线程池使用的场
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

《Elasticsearch核心技术与实战》笔记