小钟不想敲代码

ElasticSearch

ElasticSearch全文搜索引擎

全文搜索Lucene入门
ElasticSearch概述和安装
ElasticSearch的基本使用
ElasticSearch在Java中使用

一. 全文搜索Lucene入门

1. 全文搜索概述

1.1. 什么是全文检索

在互联网中查询的信息主要包括文本，视频，图片等，这些其实都是数据。全文检索主要针对文本数据的搜索

按照数据的格式，数据可分为**"结构化"数据（关系数据库表形式管理的数据 - 方便管理和查询，还可以优化查询），“半结构化"数据（XML文档、JSON文档 - 内容和结构融合在一起，查询不是很方便），和"非结构化”**数据（WORD、PDF等 - 存储和查询成本比较高）。通常而言在结构化的数据中搜索性能是比较高的，全文搜索就是把非结构化的数据变成有结构化的数据进行搜索，从而提高搜索效率。

全文搜索 : 就是把没有结构的数据，转换为有结构的数据，来加快对文本的快速搜索。通常而言，有结构的数据的查询是很快的，因为可以通过算法查询。比如：有序数组，红黑树

1.2. 全文搜索优势或特征

搜索效率高，是like无法比拟的 productName like ‘%#{}%’
相关度最高的排在最前面，官网中相关的网页排在最前面； java - 命中率
关键词的高亮
只处理文本,不处理语义。以单词方式进行搜索，比如在输入框中输入“中国的首都在哪里”，搜索引擎不会以对话的形式告诉你“在北京”，而仅仅是列出包含了搜索关键字的网页

1.3. 常见的全文搜索工具

全文搜索工具包：Lucene（核心）–Java做的，一堆jar包
全文搜索服务器：Elastic Search(ES-可伸缩/灵活的查询) / Solr等封装了lucene并扩展

2. Lucene概述

2.1. 什么是Lucene

Lucene是apache下的一个开源的全文检索引擎工具包（一堆jar包）。它为软件开发人员提供一个简单易用的工具包（类库），以方便的在小型目标系统中实现全文检索的功能。Lucene适用于中小型项目，ES适用于中大型项目（它底层是基于lucene实现的）

2.2. Lucene索引原理（重点）

任何技术都有一些核心，Lucene也有核心，而它的核心分为：索引创建，索引搜索。接下来我们就一一的来看：

2.2.1. 索引的创建

将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。那么索引里面究竟存的什么，以及如何创建索引呢？在这通过下面的例子来解答这个问题。首先构造三个不同的句子，有长有短：

在①处分别为3个句子加上编号，然后进行分词，把被一个单词分解出来与编号对应放在②处；在搜索的过程总，对于搜索的过程中大写和小写指的都是同一个单词，在这就没有区分的必要，按规则统一变为小写放在③处；要加快搜索速度，就必须保证这些单词的排列时有一定规则，这里按照字母顺序排列后放在④处；最后再简化索引，合并相同的单词，就得到如下结果：倒排索引文档

通常在数据库中我们都是根据文档找到内容，而这里是通过词，能够快速找到包含他的文档，这就是文档倒排链表或倒排索引。以上就是lucene索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的（lucene没有使用B树结构），因此lucene可以用二元搜索算法（二分查找算法）快速定位关键词。

倒排索引创建 = 分词 => 词态转换大小写转换 => 排序 => 合并

2.2.2. 索引的搜索

数据存储包括两个部分：索引区（倒排索引文档） + 数据区（原始数据）

索引搜索：对搜索关键字进行分词 => 搜索倒排索引 => 然后返回索引匹配的内容

检索java world两个关键词，符合java的有1,2两个文档，符合world的有1,3两个文档，在搜索引擎中直接这样排列两个词他们之间是OR的关系，出现其中一个都可以被找到，所以这里3个都会出来。全文检索中是有相关性排序的，那么结果在是怎么排列的呢？hello java world中包含两个关键字排在第一，另两个都包含一个关键字，得到结果，hello lucene world排在第二，java在最长的句子中占的权重最低排在结果集的第三。从这里可以看出相关度排序还是有一定规则的

二. ElasticSearch相关概念

1. ElasticSearch介绍

1.1. 为什么要使用ElasticSearch

在全文搜索领域，Lucene可以被认为是迄今为止性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene的配置及使用非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

1.2. 什么是ElasticSearch

ElasticSearch简称ES，ES是一个分布式的全文搜索引擎，为了解决原生Lucene使用的不足，优化Lucene的调用方式，并实现了高可用的分布式集群的搜索方案，ES的索引库管理支持依然是基于Apache Lucene™的开源搜索引擎。

ES也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能。它的是通过简单的 RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

案例：添加数据

PUT /pethome/pet/1
{
  "id":1,
  "name":"金毛"
}

获取

GET /pethome/pet/1

总的来说ElasticSearch简化了全文检索lucene的使用，同时增加了分布式的特性，使得构建大规模分布式全文检索变得非常容易。

1.3. ES的特点

分布式的近实时文件存储。Mysql是实时的
能在分布式项目/集群中使用
本身支持集群扩展，可以扩展到上百台服务器
处理PB级结构化或非结构化数据
简单的 RESTful API通信方式
支持各种语言的客户端：java，js
基于Lucene封装，使操作简单

1.4. ES和lucene的区别

Lucene只支持Java，ES支持多种语言
Lucene非分布式，ES支持分布式
Lucene非分布式的，索引目录只能在项目本地， ES的索引库可以跨多个服务分片存储
Lucene使用非常复杂， ES屏蔽了Lucene的使用细节，操作更方便
单体/小项目使用Lucene ，大项目或分布式项目使用ES

2. ES的使用案例

Github(美国)使用Elasticsearch搜索20TB的数据，包括13亿的文件和1300亿行的代码
Foursquare实时搜索5千万地点信息？Foursquare每天都用Elasticsearch做这样的事
德国SoundCloud使用Elasticsearch来为1.8亿用户提供即时精准的音乐搜索服务
Mozilla公司以火狐著名，它目前使用 WarOnOrange 这个项目来进行单元或功能测试，测试的结果以 json的方式索引到elasticsearch中，开发人员可以非常方便的查找 bug
Sony公司使用elasticsearch 作为信息搜索引擎
国内：百度、新浪、阿里巴巴、腾讯等公司均有对ES的使用

3. 其他全文搜索引擎

3.1. Solr（重量级对手）

Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr4 还增加了NoSQL支持。

Solr和ES比较：

Solr 利用 Zookeeper(注册中心) 进行分布式管理，支持更多格式的数据（HTML/PDF/CSV），官方提供的功能更多在传统的搜索应用中表现好于 ES，但实时搜索效率低。

ES自身带有分布式协调管理功能，但仅支持json文件格式，本身更注重于核心功能，高级功能多有第三方插件提供，在处理实时搜索应用时效率明显高于 Solr。

3.2. Katta

基于 Lucene 的，支持分布式，可扩展，具有容错功能，准实时的搜索方案。

优点：开箱即用，可以与 Hadoop (大数据)配合实现分布式。具备扩展和容错机制。

缺点：只是搜索方案，建索引部分还是需要自己实现。在搜索功能上，只实现了最基本的需求。成功案例较少，项目的成熟度稍微差一些。

3.3. HadoopContrib

大数据相关的东西 (大数据工程师)

Map/Reduce 模式(云计算)的，分布式建索引方案，可以跟 Katta 配合使用。

优点：分布式建索引，具备可扩展性。

缺点：只是建索引方案，不包括搜索实现。工作在批处理模式，对实时搜索的支持不佳。

三. ES下载和安装

ES的安装比较简单，只需要官方下载ES的运行包，然后启动ES服务即可。ES的使用主要是通过能够发起HTTP请求的终端来接入，比如Poster插件、CURL、kibana5等

1. ElasticSearch安装

ES服务只依赖于JDK，推荐使用JDK1.8+。本课程以在window环境下，ES 6.8.6版本为例，下载对应的ZIP文件

1.1. 下载ElasticSearch

下载地址：https://www.elastic.co/downloads/elasticsearch

本课程以在window环境下，ES 6.8.6版本为例，下载对应的ZIP文件

1.2. 安装与启动

解压即可，双击安装目录 bin/elasticsearch.bat即可启动

1.3. ElasticSearch测试

使用浏览器访问：http://localhost:9200

看到上图信息，恭喜你，你的ES集群已经启动并且正常运行.

1.4. ES内存配置

如果ES启动占用的内存比较大可以通过修改 jvm.options 文件来修改内存

2. Kibana安装

2.1. 下载Kibana

下载地址：https://www.elastic.co/downloads/kibana

2.2. 安装与启动

解压即可安装，执行bin\kibana.bat 即可启动Kibana

2.3. Kinbana连接ES配置

解压并编辑config/kibana.yml，设置elasticsearch.url的值为已启动的ES

默认情况下，Kibana会链接本地的默认ES http://localhost:9200 ,如果需要修改链接的ES服务器，通过修改安装目录下 config/kibana.yml，将配置项 #elasticsearch.url: "http://localhost:9200" 取消注释即可修改连接的ES服务器地址。

2.4. 测试Kibana

浏览器访问 http://localhost:5601 Kibana默认地址

Kibana组件详细说明：https://www.cnblogs.com/hunttown/p/6768864.html

Discover：可视化查询分析器
Visualize：统计分析图表
Dashboard：自定义主面板（添加图表）
Timelion：Timelion是一个kibana时间序列展示组件（暂时不用）
Dev Tools ：Console（同CURL/POSTER，操作ES代码工具，代码提示，很方便）
Management：管理索引库(index)、已保存的搜索和可视化结果(save objects)、设置 kibana 服务器属性。

四. ElasticSearch基础

1. 几个基本概念

1.1. Near Realtime（NRT）

近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级

1.2. Index：索引库

包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。一个index包含很多document，一个index就代表了一类类似的或者相同的document。比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。

1.3. Type：类型

每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，·`一个type下的document，都有相同的field，比如博客系统，有一个索引，可以定义用户数据type，博客数据type，评论数据type。

注意：ES6.X中一个index下只能包含一个type。ES7版本之后没有Type了，操作不一样了。所以暂时不要安装最新的版本的ES

1.4. Document&field

文档，es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。一个document里面有多个field，每个field就是一个数据字段。

ElastciSearch全文搜索	Mysql关系型数据库
索引库(index)	数据库(database)
文档类型(Type)	数据表(Table)
文档(Document)	一行数据(Row)
字段(field)	一个列(column)
文档ID	主键ID
查询(Query DSL)	查询(SQL)
GET http://…	SELECT * FROM …
PUT http://	UPDATE table set…

1.5. 其他

查询出的结果如下：

{
  "took" : 2,					#查询耗时
  "timed_out" : false,			#是否超时，false表示没有
  "_shards" : {					#分片信息，一般不用管
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {					#查询结果：hit表示命中
    "total" : 2,				#本次搜索，返回了几条结果
    "max_score" : 1.0,			#document对于search的相关度的匹配分数，越相关，就越匹配，分数也高
    "hits" : [					#结果集
      {
        "_index" : "pethome",	#查询了哪一个索引库idnex - 相当于mysql的哪一个数据库
        "_type" : "pet",		#查询了哪一个类型type - 相当于mysql的哪一张表
        "_id" : "2",			#文档id，返回哪一个文档document - 相当于mysql中的那一条数据，id为2
        "_score" : 1.0,			#匹配度/相关度分数score
        "_source" : {			#源数据source
          "id" : 2,				#字段filed - id
          "name" : "皮蛋",	   #字段filed - name
          "age" : 3				#字段filed - age
        }
      },
      {
        "_index" : "pethome",
        "_type" : "pet",
        "_id" : "1",
        "_score" : 0.5,
        "_source" : {
          "id" : 1,
          "name" : "小七",
          "age" : 2
        }
      }
    ]
  }
}

2. 索引库CRUD

2.1. 增加索引库

创建一个名字为 pethome的索引库，5个Master Shard分片，每个Master Shard分片有1个Replica Shard从分片

PUT pethome
{
	"settings":{
		"number_of_shards":5,	#分片数：将数据分布在几个集群节点中
        #副本：一个分片有几个备份，对于查询压力比较的的index，可以考虑提高副本数，通过多个副本均摊压力
		"number_of_replicas":1 
	}
}
PUT /pethome  	#效果同上 - 默认分片数5，默认备份数1
PUT pethome		#效果同上 - 默认分片数5，默认备份数1

这里不能用POST

POST /pethome 	#如果使用POST创建索引，会报以下错误
{
  "error": "Incorrect HTTP method for uri [/pethome?pretty] and method [POST], allowed: [DELETE, GET, HEAD, PUT]",
  "status": 405
}

添加文档会自动创建索引库index，名称为pethome

PUT /pethome/pet/1
{
    "id":1,
    "name":"小七",
    "age":1
}

2.2. 查询索引库

查询所有索引库

GET _cat/indices?v

health	status	index	uuid   pri rep docs.count docs.deleted store.size pri.store.size
yellow	open	stumanager ZggatfU2QNmxYT3x-78i7g   5   1    0    0  1.2kb   1.2kb
green  	open   	.kibana_1  ze4p7fm2SdunQe3sT4mkBg   1   0    4    1  19.7kb  19.7kb
yellow 	open   	pethome    Vl8rBt9LQWmwNcEYmz_55A   5   1   11    1  37.8kb  37.8kb
green  	open   	.kibana_task_manager f9J4c0Q4TKOULji8mTb1bQ   1   0 2 0  12.5kb  12.5kb
yellow 	open   	cms        v805r-ugREmrUQRKi595BQ   5   1   0     0  1.2kb   1.2kb

查询指定索引库

GET _cat/indices/pethome

yellow 	open 	pethome	   Vl8rBt9LQWmwNcEYmz_55A 	5   1   11   1   37.8kb  37.8kb

查看指定索引库：包括映射信息mappings和设置信息settings

GET /pethome

{
  "pethome" : {
    "aliases" : { },
    "mappings" : {
      "pet" : {
        "properties" : {
          "age" : {
            "type" : "long"
          },
          "id" : {
            "type" : "long"
          },
          "name" : {
            "type" : "text",
            "fields" : {
              "keyword" : {
                "type" : "keyword",
                "ignore_above" : 256
              }
            }
          },
          "query" : {
            "properties" : {
              "match_all" : {
                "type" : "object"
              }
            }
          }
        }
      }
    },
    "settings" : {
      "index" : {
        "creation_date" : "1676266422140",
        "number_of_shards" : "5",
        "number_of_replicas" : "1",
        "uuid" : "Vl8rBt9LQWmwNcEYmz_55A",
        "version" : {
          "created" : "6080699"
        },
        "provided_name" : "pethome"
      }
    }
  }
}

2.3. 删除索引库

DELETE 索引库名

2.4. 修改索引库

删除再添加

3. 文档的CRUD（重点）

3.1. 添加文档

我们以员工对象为例，我们首先要做的是存储员工数据，每个文档代表一个员工。在ES中数据存储在索引库中(index)，文档归属于一种类型（type）,而这些类型存在于索引（index）中，我们可以简单的对比传统数据库和ES的对应关系：

ES	Mysql
index(索引库)	数据库
type(文档类型)	表
document(文档对象)	一行数据
id(文档ID)	主键ID
field(字段)	列

ES集群可以包含多个索引（indices - 数据库），ES6.X每一个索引库中只包含一个类型（type - 表），每一个类型包含多个文档（documents - 行），然后每个文档包含多个字段（Field - 列）

指定ID创建索引文档

PUT/POST index/type/id
{
	JSON，文档内容
}
--解释---------------------------------------
PUT/POST 索引库/文档类型/文档id
{
	JSON格式，文档原始数据
}

PUT /cms/emp/1
{
  "id":1,
  "username":"jack zhang",
  "age":20,
  "address":"四川成都武侯区",
  "birthday":"2019-01-03"
}
POST /cms/emp/2
{
  "id":2,
  "username":"rose li",
  "age":18,
  "address":"重庆万州",
  "birthday":"2009-05-25"
}

不指定ID创建索引文档

POST /cms/emp
{
  "id":3,
  "username":"tom yang",
  "age":30,
  "address":"湖北武汉",
  "birthday":"2010-05-30"
}

注意1：如果不指定文档的id，ES会自动生成文档id。但是这种方式不能使用PUT，要使用POST，否则报错

{
  "error": "Incorrect HTTP method for uri [/cms/emp?pretty] and method [PUT], allowed: [POST]",
  "status": 405
}

注意2：ES6.X每一个索引库中只包含一个类型

PUT cms/user/1
{
  "id":1
}
#上面已经在cms下新建type类型emp，现在又添加了一个user类型，会报错

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "Rejecting mapping update to [cms] as the final mapping would have more than 1 type: [emp, user]"
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "Rejecting mapping update to [cms] as the final mapping would have more than 1 type: [emp, user]"
  },
  "status": 400
}

3.2. 获取文档

查询所有库的数据

GET _search

如果显示不完全，可以添加size，因为默认只显示10条数据

GET _search
{
  "size": 20
}

查询指定索引库数据

GET cms/_search

查询指定库中指定类型数据（即查询哪一个数据库中的哪一个表的所有数据），结果同上（因为ES6.x一个index下最多就一个type）

GET cms/emp/_search

查询指定文档

GET 索引库/类型/文档ID

GET cms/emp/1

指定返回的列

GET cms/emp/1?_source=id,username,age

{
  "_index" : "cms",
  "_type" : "emp",
  "_id" : "1",
  "_version" : 4,
  "_seq_no" : 3,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "id" : 1,
    "age" : 20,
    "username" : "jack zhang"
  }
}

3.3. 修改文档

全量修改

全量修改的语法跟添加文档语法一样，如果文档已经存在就是添加，否则就是修改，

文档修改过程：1.标记删除旧文档，2.添加新文档

PUT /cms/emp/2
{
  "username":"rose li",
  "address":"重庆万州",
  "birthday":"2009-05-25"
}

POST /cms/emp/2
{
  "username":"rose li",
  "address":"重庆万州",
  "birthday":"2009-05-25"
}

注意：上面的修改都会把ES中的数据全部覆盖，即除了id和age字段会被删除

局部修改

POST /cms/emp/2/_update
{
  "doc": {
    "id":2,
    "age":30,
    "username":"james wang"
  }
}

{
  "_index" : "cms",
  "_type" : "emp",
  "_id" : "3",
  "_version" : 4,
  "_seq_no" : 3,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "username" : "james wang",
    "address" : "重庆万州",
    "birthday" : "2009-05-25",
    "id" : 2,
    "age" : 30
  }
}

注意：上面的修改中会把以前文档中没有的字段如id和age会添加到文档，以前有的字段username会修改其内容，以前有的字段address和birthday不会做任何改变。局部修改只能用POST，如果用PUT会报错：

{
  "error": "Incorrect HTTP method for uri [/cms/emp/2/_update?pretty] and method [PUT], allowed: [POST]",
  "status": 405
}

3.4. 删除文档

DELETE index/type/id

五. 文档查询

1. 字符串查询

字符串查询即将条件在请求路径中。这种方式其实就是在url后面以字符串的方式拼接各种查询条件，这种方式不推荐，因为条件过多，拼接起来比较麻烦。而且q后面条件是中文，容易出现问题。

GET cms/emp/_search?q=age:17&size=2&from=2&sort=id:desc&_source=id,username

路径后携带的参数如下：

2. DSL查询语言

对于简单查询，使用字符串查询（条件在请求路径中）没有问题。但是对于复杂查询，由于条件多，逻辑嵌套复杂，查询字符串不易组织与表达，且容易出错。因此推荐通过DSL查询语言，即将查询条件使用JSON内容格式写在请求体中进行查询。

DSL查询语言是由ES提供的丰富且灵活的查询语言，它允许你构建更加复杂、强大的查询。DSL（Domain Specific Language特定领域语言）以JSON请求体的形式出现。DSL有两部分组成：查询DSL（query DSL）和过滤DSL（filter DSL），都可以用来做文档查询，但是两者却有不同：

查询DSL：会计算相关性/匹配度/分数，并进行排序，所以更耗时，且不缓存。通常用来做全文查询
过滤DSL：强调是还是不是，不计算相关性也不排序，所以更快，且过滤结果可以缓存并应用到后续查询请求。通常用来做精确查询，范围查询，存在或不存在

3. 查询方式

ES中有很多查询方式，在不同的场景中我们需要根据情况进行合理的选择，首先我们准备一些基础数据

DELETE /pethome
PUT /pethome/pet/1
{
  "id":1,
  "name":"小七",
  "age":1
}
PUT /pethome/pet/2
{
  "id":2,
  "name":"皮蛋",
  "age":2
}
PUT /pethome/pet/3
{
  "id":3,
  "name":"七七",
  "age":3
}
PUT /pethome/pet/4
{
  "id":4,
  "name":"花花",
  "age":4
}
PUT /pethome/pet/5
{
  "id":5,
  "name":"可乐",
  "age":5
}
PUT /pethome/pet/6
{
  "id":6,
  "name":"地主",
  "age":6
}
PUT /pethome/pet/7
{
  "id":7,
  "name":"hello small cat",
  "age":7
}
PUT /pethome/pet/8
{
  "id":8,
  "name":"big cat",
  "age":8
}
PUT /pethome/pet/9
{
  "id":9,
  "name":"hello cat",
  "age":9
}
PUT /pethome/pet/10
{
  "id":10,
  "name":"small cat",
  "age":10
}
PUT /pethome/pet/11
{
  "id":11,
  "name":"cat",
  "age":11
}

注意：将数据添加到ES的索引库中会采用默认的分词规则，即数据在索引库是分了词的

#默认分词器分词：hello,small,cat - 英文按空格来分
POST _analyze
{
  "text":"hello small cat"
}
#默认分词器分词：小,猫,咪 - 中文按空字符串分。对中文不是很友好，后面会采用ik分词器按照中文习惯来分
POST _analyze
{
  "text":"小猫咪"
}

3.1. 全匹配match_all

匹配所有文档即查询所有，等价于GET /pethome/pet/_search

GET /pethome/pet/_search
{
	"query": {
    	"match_all": {}
  	}
}

注：kibana中查询的数据默认只显示10条。假如总数量有11条，但只显示10条。可以通过以下方式处理

GET /pethome/pet/_search
{
  "size": 20
}
#可以通过设置size显示11条数数据

3.2. 查询指定字段_source

GET pethome/pet/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["name","age"]
}
#查询出的文档或数据只显示name和age两个字段的值，id字段不会被查询出来

3.3. 分页查询from和size

size：每页条数
form：从多少条数据开始查，从0开始，表示第一条数据

GET pethome/pet/_search
{
  "from": 0,
  "size": 4
}
#查询第一页，每页显示4条的数据

3.4. 排序sort

GET pethome/pet/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "age": {
        "order": "desc"
      }
    }
  ]
}

GET pethome/pet/_search
{
  "sort": [
    {
      "age": "desc",
      "id": {
        "order": "asc"
      }
    }
  ]
}

GET pethome/pet/_search
{
	"sort": [{"id": "desc"}]     #这里只有一个排序条件，可以省略[]
}

注意：只有排序是不会计算相关分数的，所以结果中 “max_score” : null

3.5. 标准查询match和multi_match

标准查询，可以理解为分词查询。会对查询的内容进行分词后，得到多个单词，分别带着多个单词去检索ES库，只要有一个单词能查出结果，整个查询就有结果。不管你需要全文本查询还是精确查询基本上都要用到它

如下面的搜索会对hello cat分词，并找到包含hello或cat的文档，然后给出匹配分值

GET pethome/pet/_search
{
	"query": {
		"match": {
			"name": "hello cat"		
		}
	}
}

注意：上面效果如同 where name="hello" or name="cat"

提示：match一般只用于全文匹配和查询，一般不用于过滤

multi_match查询允许你做match查询的基础上同时搜索多个字段：

{
	"query": {
		"multi_match": {
			"query": "hello cat",
			"fields": ["name", "address"]
		}
	}
}

注意：上面的搜索同时在name和address字段中匹配。

如同：where name=“hello” or name=“cat” or address=“hello” or address=“cat”

3.6. 词元查询term和terms

词元查询，可以理解为等值查询，字符串，数字等都可以使用它，把查询的内容看成一个整体去检索ES库

GET pethome/pet/_search
{
	"query": {
		"term": {
			"name": "hello cat"		
		}
	}
}

相当于:where name="hello cat"

提示：上面的"hello cat"会被当成一个整体去检索ES库，它跟match不同的地方在于match会把"hello cat"分成"hello"和"cat"分别去name中查询

terms支持多个字段查询

GET pethome/pet/_search
{
    "query": {
        "terms": {
            "name": [
                "hello",
                "cat",
                "small"
            ],
            "minimum_match": 1
        }
    }
}

提示：minimum_match：至少匹配个数，默认为1

如同：where name in (“hello”, “cat” , “small”)

match和term区别

GET /pethome/pet/_search
{
	"query" : {
   		"match" : {
   			"name" : "hello java"
		}
	}
}

区别1：match指的是"标准查询"，该查询方式会对查询的内容进行分词。term是"词元查询" ，不会对查询的内容进行分词。

match如同：where name=“hello” or name =“java”

term如同：where name= “hello java”

注意：添加的ES索引库index中的数据默认text类型，是进行了分词的，例如添加"hello world java"到ES索引库的name字段中，实际上在ES中已经变成三个单词了：hello，world，java

用法：match一般用于全文查询，term一般用于过滤查询

3.7. 范围查询range

range过滤允许我们按照指定范围查找一批数据

GET pethome/pet/_search
{
    "query": {
        "range": {
            "age": {
                "gte": 5,
                "lt":10  
            }
        }
    }
}

上例中查询年龄大于等于5并且小于10的数据

gt:> gte:>= lt:< lte:<=

3.8. 批量查询mget

同索引库同类型

GET pethome/pet/_mget
{
	"ids" : [ "2", "1" ]
}

不同索引库查询

GET _mget
{
    "docs" : [
        {
            "_index" : "cms01",
            "_type" : "blog",
            "_id" : 2
        },
        {
            "_index" : "cms02",
            "_type" : "employee",
            "_id" : 1,
            "_source": "email,age"
        }
    ]
}

3.9. 存在和缺失exists和missing

{
    "query": {
        "bool": {
            "must": [
                {
                    "match_all": {
                    }
                }
            ],
            "filter": {
                "exists": {
                    "field": "name" #查询出有name字段的文档数据
                }
            }
        }
    }
}

提示：exists和missing只能用于过滤结果

3.10. 前缀匹配prefix

前匹配搜索不是精确匹配，而是类似于SQL中的like ‘key%’

{
    "query": {
        "prefix": {
            "name": "小"
        }
    }
}

提示：上例即查询name以小开头的数据

3.11. 通配符查询wildcard

使用*代表0~N个，使用?代表1个

{
    "query": {
        "wildcard": {
            "name": "元*"
        }
    }
}

3.12. 组合条件bool

组合搜索bool可以组合多个查询条件为一个查询对象，查询条件包括must、should和must_not

例如：查询喜欢游戏或运动的女性，且出生于1990-06-30及之后的人

GET /aigou/product/_search 
{
    "query": {
        "bool": {
            "must": [
                {
                    "term": {
                        "sex": 0
                    }
                }
            ],
            "should": [
                {
                    "term": {
                        "hobby": "游戏"
                    }
                },
                {
                    "term": {
                        "hobby": "运动"
                    }
                }
            ],
            "must_not": [
                {
                    "range": {
                        "birth_date": {
                            "lt": "1990-06-30"   #less than  = lt
                        }
                    }
                }
            ],
            "filter": [
                ...
            ]
        }
    }
}

上面案例如同：sex=0 and （hobby=游戏 or hobby=运动) and birth_date >= 1990-06-30

- query : 查询，所有的查询条件在query里面
  - bool : 组合搜索bool可以组合多个查询条件为一个查询对象，这里包含了DSL查询和DSL过滤的条件
    - must : 必须匹配 ：与(must - and) 或(should - or) 非(must_not - !)
      - match：分词匹配查询，会对查询条件分词 ， multi_match :多字段匹配
      - term：词元查询，不会对查询条件分词
      - range：范围查询
    - filter： 过滤条件，结果会缓存，但不计算相关性/匹配度
      - match：分词匹配查询，会对查询条件分词 ， multi_match :多字段匹配
      - term：词元查询，不会对查询条件分词
      - range：范围查询
- from，size ：分页
- _source ：查询结果中需要哪些列
- sort：排序

综合案例：查询名称name中有"cat"，年龄age在5-10之间，按照年龄age倒排序，查询第1页，每页5条，查询结果中只需要 name，age字段

GET /aigou/product/_search 
{
	"query":{
		"bool": {
			"must": [{
				"match": {
					"name": "cat"
				}
			}],
			"filter": [
				{
                    "range":{	//范围查询
                        "age":{
                            "gte":5,
                            "lte":10
                        }
                    }
				}
			]
		}
	},
	"from": 0,
	"size": 5,
	"_source": ["name", "age"],
	"sort": [{
		"age": "desc"
	}]
}

提示：如果 bool 查询下没有must子句，那至少应该有一个should子句。但是如果有must子句，那么没有 should子句也可以进行查询

六. 分词器安装和使用

1. 基本概念

1.1. 什么是分词

在全文检索理论中，文档的查询是通过关键字查询文档索引来进行匹配，因此将文本拆分为有意义的单词，对于搜索结果的准确性至关重要，因此，在建立索引的过程中和分析搜索语句的过程中都需要对文本串分词。ES的倒排索引是分词的结果。

1.2. 理解分词的作用

分词器的作用至关重要,数据的查询结果是否精准跟分词器有很大的关系

为了方便理解，我们用一个模拟图跟踪一下ES创建倒排索引的过程,如有原始数据：

ID	username	intro
1	zs	my name is zs
2	ls	my name is ls

如果对intro进行倒排索引，ES会根据分词器进行分词 , 语义转换，排序，分组等操作最终倒排索引如下：

词元	ID倒排
is	1 -> 2
ls	2
my	1 -> 2
name	1 -> 2
zs	1

当ES进行关键字查询的时候，如需要查询“my” ，那么ES可以根据二分查找更快的定位到 my | 1 -> 2 ，根据ID值1 ，2直接取出结果。

2. IK分词器

2.1. 为什么用IK分词器

ES默认对英文文本的分词器支持较好，但和lucene一样，如果需要对中文进行全文检索，那么需要使用中文分词器，同lucene一样，在使用中文全文检索前，需要集成IK分词器 - 大家都在用IK

2.2. 安装IK分词器

下载ES的IK分词器

插件源码地址：https://github.com/medcl/elasticsearch-analysis-ik

解压elasticsearch-analysis-ik-5.2.2.zip文件

并将解压后的内容放置于ES根目录/plugins/ik

IK分词器配置

在ik/config 目录可以对分词器进行配置，如停词，自定义字典等。

IK分词测试

POST _analyze
{
  "analyzer":"ik_smart",
  "text":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
}

提示：IK分词器指定：ik_smart ； ik_max_word ， ik_max_word 相比 ik_smart 来说会将文本做最细粒度的拆分。

七. 文档映射

分词器如何使用呢？我们需要学习文档映射,相当于在Mysql中创建表时指定字段的类型,大小等

1. 什么是文档映射

ES的文档映射（mapping）机制用于文档字段的设置。例如设置字段为一种确定的数据类型，还可以设置当前字段使用哪种分词器。

查看文档映射配置

GET _mapping			#查看每个索引库下的文档映射配置

GET crm/_mapping		#查看指定索引库下的文档映射配置

GET crm/user/_mapping	#查看指定索引库下指定类型的文档映射配置  - 效果同上，一个index中一个type

1.1. 文档字段属性

文档的字段可以指定以下属性，常用的有：type类型，analyzer分词器

type	integer,long,date,boolean,keyword,text…
enable	是否启用：默认为true。 false：不能索引、不能搜索过滤，仅在_source中存储
boost	权重提升倍数：用于查询时加权计算最终的得分
format	格式：一般用于指定日期格式，如 yyyy-MM-dd HH:mm:ss.SSS
ignore_above	长度限制：长度大于该值的字符串将不会被索引和存储
ignore_malformed	转换错误忽略：true代表当格式转换错误时，忽略该值，被忽略后不会被存储和索引
include_in_all	是否将该字段值组合到_all中。
null_value	默认控制替换值。如空字符串替换为”NULL”，空数字替换为-1
store	是否存储：默认为false。true意义不大，因为_source中已有数据
index	索引模式：analyzed (索引并分词，text默认模式), not_analyzed (索引不分词，keyword默认模式)，no（不索引）
analyzer	索引分词器：索引创建时使用的分词器，如ik_smart,ik_max_word,standard
search_analyzer	搜索分词器：搜索该字段的值时，传入的查询内容的分词器

1.2. 文档字段类型

基本字段类型

字符串：text（分词），keyword（不分词），StringField（不分词文本），TextFiled（要分词文本）
数值：long，integer，short，double，float
日期：date
逻辑：boolean

复杂字段类型

对象类型：object
数组类型：array
地理位置：geo_point，geo_shape

默认文档映射

ES在没有配置Mapping的情况下新增文档，ES会尝试对字段类型进行猜测，并动态生成字段和类型的映射关系

内容	默认映射类型
true，false	boolean
123	long
123.45	double
“2014-09-15”	date
“foo bar”	text

2. 添加文档映射

注意：如果索引库已经有数据了，就不能再添加映射了

创建索引库

put crm

创建文档映射

put crm/user/_mapping
{
	"user": {
        "properties": {
            "id": {
                "type": "long"
            },
            "name": {
                "type": "text",
                "analyzer": "ik_smart",
                "search_analyzer": "ik_smart"
            }
        }
    }
}

解释：给crm索引库中的是user类型创建文档映射，id指定为long类型， name指定为text类型（要分词），analyzer分词使用ik，查询分词器也使用ik

注意：一个index索引库只能添加一个映射_mapping

3. 其他文档类型映射

基本类型字段映射非常简单，直接配置对应的类型即可，但是数组和对象如何指定类型呢？

3.1. 对象映射

{
  "id" : 1,
  "girl" : {
      "name" : "王小花",
      "age"  : 22
  }
}

文档映射

{ 
  "properties": {
       "id": {"type": "long"},
       "girl": {
           "properties":{
           		"name": {"type": "keyword"},
           		"age": {"type": "integer"}
           }
        }
  }
}

3.2. 数组映射

{
	"id" : 1,
	"hobby" : ["王小花","林志玲"]
}

文档映射

{ 
		"properties": {
            "id": {"type": "long"},
            "hobby": {"type": "keyword"}
     }
}

解释：数组的映射只需要映射一个元素即可，因为数组中的元素类型是一样的。

3.3. 对象数组

{
	"id" : 1,
	"girl":[{"name":"林志玲","age":32},{"name":"赵丽颖","age":22}]
}

文档映射

"properties": {
        "id": {
            "type": "long"
        },
        "girl": {
            "properties": {
              "age": { "type": "long" },
              "name": { "type": "text" }
            }
        }
}

八. JavaApi操作ES

1. 集成ES

官方文档API：https://www.elastic.co/guide/en/elasticsearch/client/java-api/index.html

选择6.8 - Javadoc - Document APIs/Search API/Query DSL -> 
在Document APIs下有:
    Index API
    Get API
    Delete API
    Update API

Java操作ES - Spring操作ES - SpringBoot操作ES

1.1. 导入依赖

下面采用ES提供的Jar进行ES操作

<dependencies>
    <dependency>
        <groupId>org.elasticsearch.clientgroupId>
        <artifactId>transportartifactId>
        <version>6.8.6version>
    dependency>
    <dependency>
        <groupId>junitgroupId>
        <artifactId>junitartifactId>
        <version>4.12version>
        <scope>compilescope>
    dependency>
dependencies>

1.2. 连接ElasticSearch

编写工具：

public class ESClientUtil {

    public static TransportClient getClient(){
        TransportClient client = null;
        Settings settings = Settings.builder()
                .put("cluster.name", "elasticsearch").build();
        try {
            client = new PreBuiltTransportClient(settings)
                    .addTransportAddress(new TransportAddress(InetAddress.getByName("127.0.0.1"), 9300));
        } catch (UnknownHostException e) {
            e.printStackTrace();
        }
        return client;
    }
}

注意：Java操作ES的Client有两种：TransportClient和Rest Client。但是Elasticsearch 7.0中开始弃用TransportClient，在8.0中完全删除它

2. 文档CRUD

2.1. 添加文档

//添加
@Test
public void add() throws Exception{
    //添加数据
    /*
        IndexRequestBuilder builder1 = es.prepareIndex("pethome", "pet", "12");
        Map map = new HashMap<>();
        map.put("id",12);
        map.put("name","皮卡丘");
        map.put("age",12);
        IndexRequestBuilder builder2 = builder1.setSource(map);
        System.out.println(builder2.get());
    */

    //简写
    Map<String,Object> map = new HashMap<>();
    map.put("id",12);
    map.put("name","皮卡丘");
    map.put("age",12);
    System.out.println(es.prepareIndex("pethome", "pet", "12").setSource(map).get());

    //查询数据
    System.out.println(es.prepareGet("pethome", "pet", "12").get().getSource());
}

2.2. 更新文档

//修改
@Test
public void updata() throws Exception{
    Map<String,Object> map = new HashMap<>();
    map.put("name","皮卡丘-update");
    System.out.println(es.prepareUpdate("pethome", "pet", "12").setDoc(map).get());

    //查询数据
    System.out.println(es.prepareGet("pethome", "pet", "12").get().getSource());
}

2.3. 删除文档

//删除
@Test
public void delete() throws Exception{
    System.out.println(es.prepareDelete("pethome", "pet", "12").get());
    //查询数据
    System.out.println(es.prepareGet("pethome", "pet", "12").get().getSource());//null
}

2.4. 查询操作

//查询单个数据
@Test
public void findOne() throws Exception{
    //        GetRequestBuilder builder = es.prepareGet("pethome", "pet", "1");
    //        GetResponse response = builder.get();
    //        Map map = response.getSource();
    //        System.out.println(map);
    System.out.println(es.prepareGet("pethome", "pet", "1").get().getSource());
}
//同时查询多条数据
@Test
public void findMany() throws Exception{
    MultiGetRequestBuilder builder = es.prepareMultiGet().add("pethome", "pet", "1", "2", "3");
    MultiGetResponse responses = builder.get();
    MultiGetItemResponse[] items = responses.getResponses();
    for (MultiGetItemResponse item : items) {
        System.out.println(item.getResponse().getSource());
    }
}

//查询
@Test
public void findQuery() throws Exception{
    //1.term词元查询 - 不分词
    QueryBuilder builder2 = QueryBuilders.termQuery("","");
    //2.match标准查询 - 分词
    MatchQueryBuilder builder3 = QueryBuilders.matchQuery("", "");
    //3.查询所有数据
    MatchAllQueryBuilder builder4 = QueryBuilders.matchAllQuery();
    //4.是否存在
    ExistsQueryBuilder builder5 = QueryBuilders.existsQuery("");
    //5.范围查询
    RangeQueryBuilder builder6 = QueryBuilders.rangeQuery("").gt("").lt("");
    SearchRequestBuilder builder7 = es.prepareSearch("pethome").setQuery(builder2);
    //6.分页查询
    SearchRequestBuilder builder8 = es.prepareSearch("pethome").setFrom(0).setSize(2);
    //最后：获取SearchRequestBuilder中的数据
    SearchResponse response = builder8.get();
    SearchHits hits = response.getHits();
    SearchHit[] hits1 = hits.getHits();
    for (SearchHit hit : hits1) {
        System.out.println(hit.getSourceAsMap());
    }
}

//组合查询：查询名称name中有"cat"，年龄age在5-10之间，按照年龄age倒排序，查询第1页，每页5条 ，查询结果中只需要 name，age字段
@Test
public void boolQuery() throws Exception{
    BoolQueryBuilder builder = new BoolQueryBuilder();
    builder.must().add(QueryBuilders.matchQuery("name","cat"));
    builder.must().add(QueryBuilders.rangeQuery("age").gte(5).lte(10));
    //按照年龄age倒排序
    FieldSortBuilder sortBuilder = SortBuilders.fieldSort("age").order(SortOrder.DESC);

    //查询结果中只需要 name，age字段
    SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
    String[] fileds = {"name","age"};
    SearchSourceBuilder filedsBuilder = sourceBuilder.fetchSource(fileds, null);

    SearchRequestBuilder resultBuilder = es.prepareSearch("pethome")
        .setSource(filedsBuilder)  //这个要放在setQuery前
        .setQuery(builder)
        .setFrom(0).setSize(10)
        .addSort(sortBuilder);

    SearchResponse response = resultBuilder.get();
    SearchHits hits = response.getHits();
    SearchHit[] hits1 = hits.getHits();
    for (SearchHit hit : hits1) {
        System.out.println(hit.getSourceAsMap());
    }
}

九. 课程总结

1. 重点内容

1. 文档的CRUD
2. DSL查询和过滤
3. 文档映射
4. Java操作ES

2. 面试问题

1. 数据库，表，列 在ES分别怎么对应的？
2. ES用到了什么数据结构
3. ES为什么比like快
4. ES的优势是什么
5. ES怎么做查询分页排序
6. Keyword和text的区别
7. 索引创建原理
8. Lucene和ES区别

十. 扩展知识

1. 高可用（High availability,缩写为 HA)
是指系统无中断地执行其功能的能力，代表系统 的可用性程度。 高可用的主要目的是为了保障“业务的连续性”，即在用户眼里，业务永远是正常对外 提供服务的

2. kibana查询上下文结果字段解析：
took：耗费了几毫秒
timed_out：是否超时，false是没有，默认无timeout
_shards：分片信息。shards fail的条件（primary和replica全部挂掉），不影响其他shard。默认情况下来说，一个搜索请求，会打到一个index的所有primary shard上去，当然了，每个primary shard都可能会有一个或多个replic shard，所以请求也可以到primary shard的其中一个replica shard上去。
hits.total：本次搜索，返回了几条结果
hits.max_score：score的含义，就是document对于一个search的相关度的匹配分数，越相关，就越匹配，分数也高
hits.hits：包含了匹配搜索的document的详细数据，默认查询前10条数据，按_score降序排序

3. ES中操作文档POT与POST区别：
共同点：ES中的put和post同样都具备创建和更新的功能
不同点：
	put需要精确到某一个资源文件，这样才能进行对数据的更新和创建操作
	post能对整个资源集合进行操作，如果没有指定具体修改的文件id，那么post指令会自动生成一个唯一的id进行文件的创建，并将数据写入该文件中。如果指定了文件id，那么就会根据填写的参数对数据进行创建和更新操作

4. 幂等性与非幂等性：
PUT、GET、DELETE是幂等的，由于同一条这样的指令，执行多次结果都一样。比如 PUT /uri/xxx 多次，那么结果和这条指令执行一次效果一样。
而POST是非幂等的，执行多次更改多次服务器状态。比如POST /uri 多次，那么生成多个UUID的document，执行多次效果当然和执行一次不一样了

PUT是幂等方法，POST不是。所以PUT用于更新、POST用于新增比较合适。
PUT，DELETE操作是幂等的。所谓幂等是指不管进行多少次操作，结果都一样。比如我用PUT修改一篇文章，然后在做同样的操作，每次操作后的结果并没有不同，DELETE也是一样。
POST操作不是幂等的，比如常见的POST重复加载问题：当我们多次发出同样的POST请求后，其结果是创建出了若干的资源

5. 正排索引/正向索引
id		content
1		my name is zhang san
2		my name is li si
为了提高查询效率，我们可以将id设置为主键，同时生成主键索引。通过主键索引快速关联上内容信息
但是如果想要查询内容中包含name或zhang的时候，就麻烦了，要做模糊查询，效率很低。而且要去遍历每条数据，性能会差很多
而且大小写还会影响查询结果Zhang
------------------------------------------------
keywork		id
name		1,2
zhang		1
现在是通过关键字查询主键id，然后关联我们的文章内容。以前是通过主键id关联文章内容，再去找它的关键字 - 相反的
倒排索引中强调的是关键字和主键的关联，并没有体现表的作用。所以type被弱化甚至到后来被删除了

你可能感兴趣的:(ELK,elasticsearch,lucene,搜索引擎)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
K8S - Volume - NFS 卷的简介和使用 nvd11 K8S kubernetes 容器云原生
在之前的文章里已经介绍了K8S中两个简单卷类型hostpath和emptydirk8s-Volume简介和HostPath的使用K8S-Emptydir-取代ELK使用fluentd构建loggingsaidcar但是这两种卷都有同1个限制，就是依赖于k8snodes的空间如果某个servicepod中需要的volumn空间很大，这时我们就需要考虑网络磁盘方案，其中NAS类型的Volume是常用且
fluentd 简介，日志收集并导入BigQuery nvd11 Cloud spring Etl spring boot
日志收集的工具有很多种例如Splunk，很多大公司都在使用，但是个人使用的话并不合适，主要是需要license的…钱是1个大问题另1个常见开源的解决方案是ELK,但是搭建和学习成本高，如果只是为了日志收集并不值。对于k8s方案，还有1个开源选择，就是fluentd，本文的主题。Fluentd的简介Fluentd是一个开源的数据收集器，旨在实现日志数据的统一收集、处理和转发。它支持多种数据源和数据格
ELK 架构中 ES 性能优化 xianjie0318 elk 架构 elasticsearch
1.背景由于目前日志采集流程中,经常遇到用户磁盘IO占用超过90%以上的场景,但是观察其日志量大约在2k~5k之间,整体数据量不大,所以针对该问题进行了一系列的压测和实验验证,最后得出这篇优化建议文档2.压测前期准备2.1制造大量日志该阶段为数据源输入阶段,为了避免瓶颈在数据制造侧,所以需要保证filebeat具有足够的日志制造能力最后效果,filebeat可以达到70kQPS的数据发往logst
K8S - Emptydir - 取代ELK 使用fluentd 构建logging saidcar nvd11 K8S kubernetes
由于k8s的无状态service通常部署在多个POD中，实现多实例面向高并发。但是k8s本身并没有提供集中查询多个pod的日志的功能其中1个常见方案就是ELK.本文的方案是利用fluentdsidecar和emptydir把多个pod的日志导向到bigquery的table中。Emptydir的简介Kubernetes中的EmptyDir是一种用于容器之间共享临时存储的空目录卷类型。EmptyDi
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
5分钟熟练上手ES的具体使用佚名涙 elasticsearch jenkins 大数据学习
5分钟上手ES的具体使用相信有很多同学想要去学习elk时会使用docker等一些方式去下载相关程序，但提到真正去使用es的一系列操作时又会知之甚少。于是这一篇博客应运而生。本文就以下载好elk/efk系统后应该如何去使用为例，介绍es的具体操作。es关键字基本概念索引（Index）：类似于关系型数据库中的“数据库”，是数据存储的容器。文档（Document）：类似于关系型数据库中的“行”，是JSO
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri