dangfulin

Elasticsearch——1：Elasticsearch 概述

一，什么是 Elasticsearch

（一）Elasticsearch

按照Elasticsearch官网的说法：

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎，能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心，它集中存储您的数据，帮助您发现意料之中以及意料之外的情况。

你可能还见过一些其他的说法，在“是一个”后面往往跟着一堆牛逼的词：分布式、可扩展、高性能、近实时…把需要对比才能体现的总结性词汇放到解释性语句里，反倒增加了理解成本，让人感到着急！

简单来说，Elasticsearch 就是一个数据搜索引擎，只不过随着大数据分析方向上的功能扩展，它就成了扩展后的 Elastic Stack 技术栈的一部分。

但无论怎样，只要始终记得 Elasticsearch 是做搜索引擎起家的。

（二）从 Apache Lucene 开始

说到搜索引擎，你可能想到的是 Google、Bing 等（baidu狗都不用），但“搜索引擎”是一个笼统的概念。这些搜索引擎，可以理解为就是功能强大的网络爬虫，是互联网级别的。它们能够搜集并整理网络资源，然后对用户的搜索动作做出响应。

另一类搜索引擎的作用是在软件系统中提供基于字段的搜索，比如对 Apache Lucene 工具包封装而来的 Elasticsearch、Solr等。

作为免费、开源、高性能的、纯 Java 编写的全文检索引擎，Apache Lucene 几乎适用任何需要全文检索的场景。它还提供了 python 扩展包 PyLucene。

尽管这两类作用对象不同的搜索引擎的数据来源可能不同，但都需要考虑的是如何做好搜索关键词与目标之间的映射以及通过索引搜索数据——索引和查询。

可以简单去看看 Lucene，有利于后面理解 Elasticsearch。

1，Apache Lucene 是什么

Apache Lucene 是一个 Java 语言开发的搜索引擎库，主要提供全文检索功能。通过使用额外的扩展，还能够提供例如多语言处理、拼写检查、高亮显示等各种各样的功能。

可以下载单个的 Apache Lucene Core 库文件使用最主要的功能，也能自定义扩展它来打造定制化的搜索引擎。

2，Apache Lucene 中的核心概念

document：索引与搜索的主要数据载体，它包含一个或多个 field。存放将要写入索引的或将从索引搜索出来的数据。
field：document 的一个片段，它包括名称和内容两个部分。
term：搜索时的一个单位，代表了文本中的一个词。
token：term 在 field 文本中的一次出现，包括 term 的文本、开始和结束的偏移以及词条类型。

Lucene介绍与入门使用

（三）Elasticsearch 中的一些基础概念

1，节点

节点（node）：Elasticsearch 节点是 Elasticsearch 的单个运行实例。如果数据量增加，我们就可以在集群中使用节点来水平扩展搜索服务。主节点就用于集群中所有结点的信息。

2，集群

集群（cluster ）：Elasticsearch 集群由一个或多个协同工作的节点组成。集群具有容错能力，能容纳巨大数据。

3，文档

文档（document）：Elasticsearch 文档是以 JSON 格式存储的单个记录，其中键是字段的名称，值是该字段的值。文档类似于 TRDBMS 数据表中存储的一行数据。

例如，一条表示某项活动的文档：

{
　"name": "Elasticsearch Denver",
　"organizer": "Lee",
　"location": {
　　"name": "Denver, Colorado, USA",
　　"geolocation": "39.7392, -104.9847"
　},
　"members": ["Lee", "Mike"]
}

Elasticsearch 是面向文档的，这意味着索引和搜索数据的最小单位是文档，类似于“”行记录。

自包含：文档同时包含字段及其取值。
层次型：字段值除了可以是字符串、整数外，还可以包含其他字段和取值。
无模式：并非所有的文档都需要拥有相同的字段。

4，索引

索引（index）：Elasticsearch 索引是一个用于存储相同结构文档的逻辑命名空间。例如，如果我们想要存储商品详细信息，我们应该创建一个带有产品名称的索引，并将文档存储到其中，搜索商品信息时，就在这里搜索文档。

除了文档之外，索引还包含一些必要配置项，比如刷新间隔时间 refresh_interval 、分片配置等。

使用 postman 发送包含下列内容的 PUT 请求来创建一条文档：

得到：

{
    "_index": "get-together",	# 索引
    "_type": "group",			# 类型
    "_id": "1",					# 索引 ID
    "_version": 1,				# 版本
    "result": "created",		# 操作结果
    "_shards": {				# 分片信息
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 0,
    "_primary_term": 1
}

5，分片

分片（shard）：分片是一个独立且功能齐全的 Lucene 索引。单个 Elasticsearch 索引可以拆分为多个 Lucene 索引，即数据可以拆分为多个分片，并且可以均匀地分布到 Elasticsearch 集群上的多个节点。分片可以有两种类型：主分片（primary shards）和副分片（replica shards）。主分片包含主数据，而副分片包含主分片的副本，用副本分片来做备份，并提高集群的搜索性能。

二，为什么可以用Elasticsearch 进行搜索

在网站中提供搜索功能是非常有用的。但实现搜索功能会遇到挑战：

结果要准确。
返回结果的速度要快。

如果仅仅是使用 TRDBMS 中的查询语句来完成数据查询，将面临巨大的性能瓶颈，而这正号可以使用 Elasticsearch 之类的搜搜引擎来解决：
在 TRDBMS 或 NoSQL DBMS 的数据上建立索引以加快查询速度。

使用 Elasticsearch 有一些优势：

Elasticsearch 充分封装了 Lucene，并提供了额外的扩展，使存储、索引、搜索都变得更快、更容易。
各项特性都可以通过配置来进行指定，足够灵活、有弹性。
可用 RESTful HTTP请求来实现索引化、搜索并管理 Elasticsearch 集群。

而且通过 Elasticsearch 可以实现简单搜索的扩展：

指定搜索结果相关性。
自动的输入建议。
搜索结果分类。
搜索结果的数据聚合。
…

正是由于拥有这些特点，Elasticsearch 将能够适用于以下场景或领域：

数据搜索业务：电子商务网站、旅游网站、社交网站、生物信息学网站、新闻和博客门户等，它们都需要显示快速的搜索结果。
数据记录和分析是我们广泛使用 Elasticsearch 以及 Elastic Stack 的其他工具（如Beats，Logstash和Kibana）的另一个重要领域。在这里，Beats 和 Logstash 作为数据摄取工具工作，使用它我们从不同的来源获取数据（如日志数据、应用数据、网络数据和不同的系统指标数据），并将数据推送到 Elasticsearch 中。一旦数据被推送到 Elasticsearch 中，我们就使用 Kibana 来分析它。许多公司正在使用 Elastic Stack 进行集中式数据分析。
应用性能监控：配合 Elastic Stack APM 等工具，监控应用程序的性能和可用性，以轻松确定系统中是否存在问题。
数据可视化：Kibana、Grafana 或 Graylog 可以配置为可视化 Elasticsearch 数据。
…

三，怎样使用 Elasticsearch

既然 Elasticsearch 能将文档作为存储对象，并以此构建索引和搜索功能，那么是否可以将

Elasticsearch 作为主要数据源
Elasticsearch 作为搜索的辅助数据源
Elasticsearch 作为一个独立的子系统

（一）作为主要数据源

如果轻微的数据丢失对应用程序来说不是问题，那么可以使用 Elasticsearch 作为主要数据源。

对于需要较少数据更新的搜索密集型应用程序，我们可以使用Elasticsearch，而无需任何其他数据存储工具。

（二）作为搜索的辅助数据源

这是 Elasticsearch 最常见和最理想的用途：主数据库提供数据存储，而 Elasticsearch 用于数据搜索。

这样做的关键点是必须同步主数据库与索引。

（三）作为一个独立的子系统

使用 Elasticsearch 作为子系统的数据库，比如用 Elasticsearch 以及 Elastic Stack 的其他工具构建用于日志分析、数据分析仪表板、监控和安全分析等子系统。

四，简单操作

Elasticsearch 非常灵活，这里仅做简单的演示。

（一）准备 Elasticsearch

1，安装 Elasticsearch

安装 Elasticsearch 之前，需要先安装并配置好 Java。

然后进入 Download Elasticsearch 下载合适的版本。

更多安装方式请参考：Installing Elasticsearch

2，启动 Elasticsearch 服务。

以 Windows 为例，先切换到安装目录：

C:\Users\PC>cd D:\tools_software\Elasticsearch\elasticsearch-7.3.1

C:\Users\PC>D:

D:\tools_software\Elasticsearch\elasticsearch-7.3.1>

然后执行：

D:\tools_software\Elasticsearch\elasticsearch-7.3.1>bin\elasticsearch.bat
Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option UseConcMarkSweepGC; support was removed in 14.0
Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option CMSInitiatingOccupancyFraction; support was removed in 14.0
Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option UseCMSInitiatingOccupancyOnly; support was removed in 14.0
[2022-05-11T20:53:46,875][INFO ][o.e.e.NodeEnvironment    ] [DANGFULIN] using [1] data paths, mounts [[(D:)]], net usable_space [158.8gb], net total_space [299.9gb], types [NTFS]
[2022-05-11T20:53:46,878][INFO ][o.e.e.NodeEnvironment    ] [DANGFULIN] heap size [1gb], compressed ordinary object pointers [true]
[2022-05-11T20:53:46,888][INFO ][o.e.n.Node               ] [DANGFULIN] node name [DANGFULIN], node ID [8AXMVaArTkSvEcgPeO8_iQ], cluster name [elasticsearch]
[2022-05-11T20:53:46,889][INFO ][o.e.n.Node               ] [DANGFULIN] version[7.3.1], pid[19156], build[default/zip/4749ba6/2019-08-19T20:19:25.651794Z], OS[Windows 10/10.0/amd64], JVM[Oracle Corporation/Java HotSpot(TM) 64-Bit Server VM/14.0.1/14.0.1+7]
[2022-05-11T20:53:46,889][INFO ][o.e.n.Node               ] [DANGFULIN] JVM home [D:\tools_software\jdk-14.0.1]
[2022-05-11T20:53:46,889][INFO ][o.e.n.Node               ] [DANGFULIN] JVM arguments [-Xms1g, -Xmx1g, -XX:+UseConcMarkSweepGC, -XX:CMSInitiatingOccupancyFraction=75, -XX:+UseCMSInitiatingOccupancyOnly, -Des.networkaddress.cache.ttl=60, -Des.networkaddress.cache.negative.ttl=10, -XX:+AlwaysPreTouch, -Xss1m, -Djava.awt.headless=true, -Dfile.encoding=UTF-8, -Djna.nosys=true, -XX:-OmitStackTraceInFastThrow, -Dio.netty.noUnsafe=true, -Dio.netty.noKeySetOptimization=true, -Dio.netty.recycler.maxCapacityPerThread=0, -Dlog4j.shutdownHookEnabled=false, -Dlog4j2.disable.jmx=true, -Djava.io.tmpdir=C:\Users\PC\AppData\Local\Temp\elasticsearch, -XX:+HeapDumpOnOutOfMemoryError, -XX:HeapDumpPath=data, -XX:ErrorFile=logs/hs_err_pid%p.log, -Xlog:gc*,gc+age=trace,safepoint:file=logs/gc.log:utctime,pid,tags:filecount=32,filesize=64m, -Djava.locale.providers=COMPAT, -Dio.netty.allocator.type=unpooled, -XX:MaxDirectMemorySize=536870912, -Delasticsearch, -Des.path.home=D:\tools_software\Elasticsearch\elasticsearch-7.3.1, -Des.path.conf=D:\tools_software\Elasticsearch\elasticsearch-7.3.1\config, -Des.distribution.flavor=default, -Des.distribution.type=zip, -Des.bundled_jdk=true]
[2022-05-11T20:53:48,202][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [aggs-matrix-stats]
[2022-05-11T20:53:48,203][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [analysis-common]
[2022-05-11T20:53:48,203][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [data-frame]
[2022-05-11T20:53:48,203][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [flattened]
[2022-05-11T20:53:48,204][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [ingest-common]
[2022-05-11T20:53:48,204][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [ingest-geoip]
[2022-05-11T20:53:48,204][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [ingest-user-agent]
[2022-05-11T20:53:48,204][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [lang-expression]
[2022-05-11T20:53:48,204][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [lang-mustache]
[2022-05-11T20:53:48,205][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [lang-painless]
[2022-05-11T20:53:48,205][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [mapper-extras]
[2022-05-11T20:53:48,205][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [parent-join]
[2022-05-11T20:53:48,205][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [percolator]
[2022-05-11T20:53:48,206][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [rank-eval]
[2022-05-11T20:53:48,206][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [reindex]
[2022-05-11T20:53:48,206][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [repository-url]
[2022-05-11T20:53:48,207][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [transport-netty4]
[2022-05-11T20:53:48,208][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [vectors]
[2022-05-11T20:53:48,209][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-ccr]
[2022-05-11T20:53:48,211][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-core]
[2022-05-11T20:53:48,212][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-deprecation]
[2022-05-11T20:53:48,212][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-graph]
[2022-05-11T20:53:48,213][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-ilm]
[2022-05-11T20:53:48,213][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-logstash]
[2022-05-11T20:53:48,214][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-ml]
[2022-05-11T20:53:48,214][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-monitoring]
[2022-05-11T20:53:48,214][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-rollup]
[2022-05-11T20:53:48,215][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-security]
[2022-05-11T20:53:48,215][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-sql]
[2022-05-11T20:53:48,216][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-voting-only-node]
[2022-05-11T20:53:48,216][INFO ][o.e.p.PluginsService     ] [DANGFULIN] loaded module [x-pack-watcher]
[2022-05-11T20:53:48,217][INFO ][o.e.p.PluginsService     ] [DANGFULIN] no plugins loaded
[2022-05-11T20:53:50,658][INFO ][o.e.x.s.a.s.FileRolesStore] [DANGFULIN] parsed [0] roles from file [D:\tools_software\Elasticsearch\elasticsearch-7.3.1\config\roles.yml]
[2022-05-11T20:53:51,143][INFO ][o.e.x.m.p.l.CppLogMessageHandler] [DANGFULIN] [controller/1336] [Main.cc@110] controller (64 bit): Version 7.3.1 (Build 1d93901e09ef43) Copyright (c) 2019 Elasticsearch BV
[2022-05-11T20:53:51,363][DEBUG][o.e.a.ActionModule       ] [DANGFULIN] Using REST wrapper from plugin org.elasticsearch.xpack.security.Security
[2022-05-11T20:53:51,722][INFO ][o.e.d.DiscoveryModule    ] [DANGFULIN] using discovery type [single-node] and seed hosts providers [settings]
[2022-05-11T20:53:52,158][INFO ][o.e.n.Node               ] [DANGFULIN] initialized
[2022-05-11T20:53:52,159][INFO ][o.e.n.Node               ] [DANGFULIN] starting ...
[2022-05-11T20:53:52,326][INFO ][o.e.t.TransportService   ] [DANGFULIN] publish_address {192.168.1.11:9300}, bound_addresses {[::]:9300}
[2022-05-11T20:53:52,346][INFO ][o.e.c.c.Coordinator      ] [DANGFULIN] cluster UUID [L-bKAPr-QniKUkBJi_qDTA]
[2022-05-11T20:53:52,638][INFO ][o.e.c.s.MasterService    ] [DANGFULIN] elected-as-master ([1] nodes joined)[{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20} elect leader, _BECOME_MASTER_TASK_, _FINISH_ELECTION_], term: 8, version: 59, reason: master node changed {previous [], current [{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20}]}
[2022-05-11T20:53:52,835][INFO ][o.e.c.s.ClusterApplierService] [DANGFULIN] master node changed {previous [], current [{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20}]}, term: 8, version: 59, reason: Publication{term=8, version=59}
[2022-05-11T20:53:52,927][INFO ][o.e.h.AbstractHttpServerTransport] [DANGFULIN] publish_address {192.168.1.11:9200}, bound_addresses {[::]:9200}
[2022-05-11T20:53:52,927][INFO ][o.e.n.Node               ] [DANGFULIN] started
[2022-05-11T20:53:53,036][INFO ][o.e.l.LicenseService     ] [DANGFULIN] license [2d2fe540-74e4-4d46-9554-c5b2395502d8] mode [basic] - valid
[2022-05-11T20:53:53,036][INFO ][o.e.x.s.s.SecurityStatusChangeListener] [DANGFULIN] Active license is now [BASIC]; Security is disabled
[2022-05-11T20:53:53,043][INFO ][o.e.g.GatewayService     ] [DANGFULIN] recovered [1] indices into cluster_state
[2022-05-11T20:53:53,677][INFO ][o.e.c.r.a.AllocationService] [DANGFULIN] Cluster health status changed from [RED] to [GREEN] (reason: [shards started [[elastic_news][0]] ...]).

在其中可以看到一些配置信息：
1，节点与集群信息：

[2022-05-11T20:53:46,888][INFO ][o.e.n.Node               ] [DANGFULIN] node name [DANGFULIN], node ID [8AXMVaArTkSvEcgPeO8_iQ], cluster name [elasticsearch]
...
[2022-05-11T20:53:52,346][INFO ][o.e.c.c.Coordinator      ] [DANGFULIN] cluster UUID [L-bKAPr-QniKUkBJi_qDTA]
[2022-05-11T20:53:52,638][INFO ][o.e.c.s.MasterService    ] [DANGFULIN] elected-as-master ([1] nodes joined)[{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20} elect leader, _BECOME_MASTER_TASK_, _FINISH_ELECTION_], term: 8, version: 59, reason: master node changed {previous [], current [{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20}]}
[2022-05-11T20:53:52,835][INFO ][o.e.c.s.ClusterApplierService] [DANGFULIN] master node changed {previous [], current [{DANGFULIN}{8AXMVaArTkSvEcgPeO8_iQ}{tqkXdkVjRLiVyddIAzIhBQ}{192.168.1.11}{192.168.1.11:9300}{dim}{ml.machine_memory=34198495232, xpack.installed=true, ml.max_open_jobs=20}]}, term: 8, version: 59, reason: Publication{term=8, version=59}

2，进程信息：

[2022-05-11T20:53:46,889][INFO ][o.e.n.Node               ] [DANGFULIN] version[7.3.1], pid[19156], build[default/zip/4749ba6/2019-08-19T20:19:25.651794Z], OS[Windows 10/10.0/amd64], JVM[Oracle Corporation/Java HotSpot(TM) 64-Bit Server VM/14.0.1/14.0.1+7]

3，通信地址信息：

[2022-05-11T20:53:52,326][INFO ][o.e.t.TransportService   ] [DANGFULIN] publish_address {192.168.1.11:9300}, bound_addresses {[::]:9300}
...
[2022-05-11T20:53:52,927][INFO ][o.e.h.AbstractHttpServerTransport] [DANGFULIN] publish_address {192.168.1.11:9200}, bound_addresses {[::]:9200}

节点之间的通信使用 9300
HTTP的通信使用 9200

4，状态讯息：

[2022-05-11T20:53:52,927][INFO ][o.e.n.Node               ] [DANGFULIN] started

可用过 CURL 工具发送 HTTP 请求来验证服务是否启动：

C:\Users\PC>curl -XGET "http://127.0.0.1:9200"
curl: (6) Could not resolve host: GET
{
  "name" : "DANGFULIN",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "L-bKAPr-QniKUkBJi_qDTA",
  "version" : {
    "number" : "7.3.1",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "4749ba6",
    "build_date" : "2019-08-19T20:19:25.651794Z",
    "build_snapshot" : false,
    "lucene_version" : "8.1.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

或者直接访问 http://127.0.0.1:9200:

（二）REST APIs

在正式开始比较细节的操作之前，先来看看 Elasticsearch 提供的 REST APIs，它们非常有用。

1，cat APIs

尽管 Elasticsearch 使用 JSON 作为数据格式，但真正需要查看一些信息的时候是不太方便的，所以 Elasticsearch 为我们提供了获取所有细节的 API —— _cat :

C:\Users\PC> curl -XGET "http://localhost:9200/_cat
=^.^=
/_cat/allocation
/_cat/shards
/_cat/shards/{index}
/_cat/master
/_cat/nodes
/_cat/tasks
/_cat/indices
/_cat/indices/{index}
/_cat/segments
/_cat/segments/{index}
/_cat/count
/_cat/count/{index}
/_cat/recovery
/_cat/recovery/{index}
/_cat/health
/_cat/pending_tasks
/_cat/aliases
/_cat/aliases/{alias}
/_cat/thread_pool
/_cat/thread_pool/{thread_pools}
/_cat/plugins
/_cat/fielddata
/_cat/fielddata/{fields}
/_cat/nodeattrs
/_cat/repositories
/_cat/snapshots/{repository}
/_cat/templates

（1）常用参数

1，Verbose：能显示数据信息的含义。

不用 Verbose 参数：
C:\Users\PC> curl -XGET "http://localhost:9200/_cat/nodes"
192.168.1.11 11 48 5    dim * DANGFULIN

用：
C:\Users\PC> curl -XGET "http://localhost:9200/_cat/nodes?v"
ip           heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name
192.168.1.11           12          48   6                          dim       *      DANGFULIN

2，Help：查看信息中各字段的细节。

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/master?v"
id                     host         ip           node
8AXMVaArTkSvEcgPeO8_iQ 192.168.1.11 192.168.1.11 DANGFULIN

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/master?v&help"
id   |   | node id
host | h | host name
ip   |   | ip address
node | n | node name

3，Headers：只输出指定字段。

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/nodes?v&h=ip,cpu"
ip           cpu
192.168.1.11   6

4，Response formats：指定输出格式（JSON, text, YAML, smile, or cbor format based on the requirement. ）。

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/indices?format=YAML"
---
- health: "green"
  status: "open"
  index: "elastic_news"
  uuid: "livS2KxwRrK7c1eBbEf-mQ"
  pri: "1"
  rep: "0"
  docs.count: "120000"
  docs.deleted: "0"
  store.size: "67mb"
  pri.store.size: "67mb"
- health: "green"
  status: "open"
  index: "personinfo"
  uuid: "R9u7MsnuR5ChQ2bPyuWuXg"
  pri: "1"
  rep: "0"
  docs.count: "60000"
  docs.deleted: "0"
  store.size: "6.1mb"
  pri.store.size: "6.1mb"

5，Sort：对输出的信息字段进行排序。

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/templates?v"
name                        index_patterns                order      version
.ml-meta                    [.ml-meta]                    0          7030199
.ml-config                  [.ml-config]                  0          7030199
.ml-anomalies-              [.ml-anomalies-*]             0          7030199
.monitoring-es              [.monitoring-es-7-*]          0          7000199
.data-frame-notifications-1 [.data-frame-notifications-*] 0          7030199
.monitoring-logstash        [.monitoring-logstash-7-*]    0          7000199
.data-frame-internal-1      [.data-frame-internal-1]      0          7030199
.monitoring-beats           [.monitoring-beats-7-*]       0          7000199
.logstash-management        [.logstash]                   0
.triggered_watches          [.triggered_watches*]         2147483647
.monitoring-alerts-7        [.monitoring-alerts-7]        0          7000199
.monitoring-kibana          [.monitoring-kibana-7-*]      0          7000199
.ml-state                   [.ml-state*]                  0          7030199
.ml-notifications           [.ml-notifications]           0          7030199
.watch-history-10           [.watcher-history-10*]        2147483647
.watches                    [.watches*]                   2147483647

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/templates?v&s=version:desc,order"
name                        index_patterns                order      version
.ml-meta                    [.ml-meta]                    0          7030199
.ml-config                  [.ml-config]                  0          7030199
.ml-anomalies-              [.ml-anomalies-*]             0          7030199
.data-frame-notifications-1 [.data-frame-notifications-*] 0          7030199
.data-frame-internal-1      [.data-frame-internal-1]      0          7030199
.ml-state                   [.ml-state*]                  0          7030199
.ml-notifications           [.ml-notifications]           0          7030199
.monitoring-es              [.monitoring-es-7-*]          0          7000199
.monitoring-logstash        [.monitoring-logstash-7-*]    0          7000199
.monitoring-beats           [.monitoring-beats-7-*]       0          7000199
.monitoring-alerts-7        [.monitoring-alerts-7]        0          7000199
.monitoring-kibana          [.monitoring-kibana-7-*]      0          7000199
.logstash-management        [.logstash]                   0
.triggered_watches          [.triggered_watches*]         2147483647
.watch-history-10           [.watcher-history-10*]        2147483647
.watches                    [.watches*]                   2147483647

下面就来解释其中出现的额外的选项的意义。

（2）count API

统计计算单个索引或所有索引中的文档数：

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/count?v"
epoch      timestamp count
1652409109 02:31:49  180000

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/count/personinfo"
1652409115 02:31:55 60000

（3）health API

查看使用中的集群的健康状态：

C:\Users\PC> curl -X GET "localhost:9200/_cat/health?v&pretty"
epoch      timestamp cluster       status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1652409245 02:34:05  elasticsearch green           1         1      2   2    0    0        0             0                  -                100.0%

（4）indices API

查看一个集群中的所有索引信息：

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/indices?v"
health status index        uuid                   pri rep docs.count docs.deleted store.size pri.store.size
green  open   elastic_news livS2KxwRrK7c1eBbEf-mQ   1   0     120000            0       67mb           67mb
green  open   personinfo   R9u7MsnuR5ChQ2bPyuWuXg   1   0      60000            0      6.1mb          6.1mb

（5）master API

查看主节点含的信息：

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/master?v"
id                     host         ip           node
8AXMVaArTkSvEcgPeO8_iQ 192.168.1.11 192.168.1.11 DANGFULIN

（6）nodes API

查看一个集群中的节点信息：

C:\Users\PC>curl -XGET "http://localhost:9200/_cat/nodes?v"
ip           heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name
192.168.1.11           35          48   6                          dim       *      DANGFULIN

（7）shards API

查看不同节点及其分片信息：

C:\Users\PC> curl -XGET "http://localhost:9200/_cat/shards?v"
index        shard prirep state     docs store ip           node
elastic_news 0     p      STARTED 120000  67mb 192.168.1.11 DANGFULIN
personinfo   0     p      STARTED  60000 6.1mb 192.168.1.11 DANGFULIN

2，Cluster APIs

集群级别的 API 能应用于集群中的所有节点。

（1）health API

获取群集的运行状况:

C:\Users\PC> curl -XGET "http://localhost:9200/_cluster/health"
{"cluster_name":"elasticsearch","status":"green","timed_out":false,"number_of_nodes":1,"number_of_data_nodes":1,"active_primary_shards":2,"active_shards":2,"relocating_shards":0,"initializing_shards":0,"unassigned_shards":0,"delayed_unassigned_shards":0,"number_of_pending_tasks":0,"number_of_in_flight_fetch":0,"task_max_waiting_in_queue_millis":0,"active_shards_percent_as_number":100.0}

（2）stats API

获取索引指标和节点指标等不同的详细信息：

C:\Users\PC>curl -XGET "http://localhost:9200/_cluster/state/_all/twitter"
{"cluster_name":"elasticsearch","cluster_uuid":"L-bKAPr-QniKUkBJi_qDTA","version":102,"state_uuid":"lS4O2LAqS3ac58c12dQt7Q","master_node":"8AXMVaArTkSvEcgPeO8_iQ","blocks":{},"nodes":{"8AXMVaArTkSvEcgPeO8_iQ":{"name":"DANGFULIN","ephemeral_id":"g2vOjJCsRT2j5uHNQyzWew","transport_address":"192.168.1.11:9300","attributes":{"ml.machine_memory":"34198495232","xpack.installed":"true","ml.max_open_jobs":"20"}}},"metadata":{"cluster_uuid":"L-bKAPr-QniKUkBJi_qDTA","cluster_coordination":{"term":11,"last_committed_config":["8AXMVaArTkSvEcgPeO8_iQ"],"last_accepted_config":["8AXMVaArTkSvEcgPeO8_iQ"],"voting_config_exclusions":[]},"templates":{},"indices":{},"index-graveyard":{"tombstones":[]}},"routing_table":{"indices":{}},"routing_nodes":{"unassigned":[],"nodes":{"8AXMVaArTkSvEcgPeO8_iQ":[]}}}

（三）演示项目：在线书店

这里将通过一个在线书店小项目（来自《Elasticsearch in Action, Second Edition MEAP》）来演示更多对 Elasticsearch 8.X 的使用方式。

1，准备数据

巧妇难为无米之炊我们需要为 Elasticsearch 填充一些数据以作为搜索的基础。

（1）项目概述

这里并不是要创建一个完整好的项目，只是为了演示 Elasticsearch 的一些特点，所以我们要做的就是创建一个图书库存清单，并做一些查询工作。

数据模型 books 非常简单:

（2）数据源

从数据库的角度来说，elasticsearch 是一个文档数据库，它使用 JSON 格式来描述文档内容：

有好几种方式能让客户端的数据被 elasticsearch 索引：

创建一个从相关数据库输送数据的适配器。
从文件系统中提取数据。
从实时的数据源的流事件中获取数据。

无论哪种方式，我们都通过基于 JSON 格式的 RESTful APIs 将数据加载到 elasticsearch。

（3）文档 APIs

为了能索引文档（indexing documents），我们需要事先使用 HTTP PUT 或 POST 请求将数据传到 elasticsearch。

请求的具体格式解释如下：

通过下面的内容创建一条文档：

注意！不要忘记在 POST 的请求路径的最后添加文档 ID

使用 curl 工具时，具体命令及解释如下：

好了，这就创建好一个文档了，具体如整个过程到底是怎样实现的、依赖了些什么、响应中的一些元数据的意义是什么等等，都放到后面来说

（4）索引文档

虽然还不会涉及过多的细节，但从较高层级来看，是这样一个过程：

就这样，我们就索引了一条文档，有点像往 RDBMS 插入一条记录的样子哈但最主要不同的是，在索引第一条文档之前我们并没有类似定义 schema 的动作，但实际上 elasticsearch 已经自动替我们完成相关动作了。

以索引文档的方式创建索引：

POST index/_doc/1
{
  JSON key-value pairs
}

为了让后面的演示能继续进行，请索引跟多文档。

（5）批量索引文档

在接触查询之前，让我们用 _bulk API 批量索引文档：

POST _bulk
{"index":{"_index":"books","_id":"1"}}
{"title": "Core Java Volume I – Fundamentals","author": "Cay S. Horstmann","edition": 11, "synopsis": "Java reference book that offers a detailed explanation of various features of Core Java, including exception handling, interfaces, and lambda expressions. Significant highlights of the book include simple language, conciseness, and detailed examples.","amazon_rating": 4.6,"release_date": "2018-08-27","tags": ["Programming Languages, Java Programming"]}
{"index":{"_index":"books","_id":"2"}}
{"title": "Effective Java","author": "Joshua Bloch", "edition": 3,"synopsis": "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.", "amazon_rating": 4.7, "release_date": "2017-12-27", "tags": ["Object Oriented Software Design"]}
{"index":{"_index":"books","_id":"3"}}
{"title": "Java: A Beginner’s Guide", "author": "Herbert Schildt","edition": 8,"synopsis": "One of the most comprehensive books for learning Java. The book offers several hands-on exercises as well as a quiz section at the end of every chapter to let the readers self-evaluate their learning.","amazon_rating": 4.2,"release_date": "2018-11-20","tags": ["Software Design & Engineering", "Internet & Web"]}
{"index":{"_index":"books","_id":"4"}}
{"title": "Java - The Complete Reference","author": "Herbert Schildt","edition": 11,"synopsis": "Convenient Java reference book examining essential portions of the Java API library, Java. The book is full of discussions and apt examples to better Java learning.","amazon_rating": 4.4,"release_date": "2019-03-19","tags": ["Software Design & Engineering", "Internet & Web", "Computer Programming Language & Tool"]}
{"index":{"_index":"books","_id":"5"}}
{"title": "Head First Java","author": "Kathy Sierra and Bert Bates","edition":2, "synopsis": "The most important selling points of Head First Java is its simplicity and super-effective real-life analogies that pertain to the Java programming concepts.","amazon_rating": 4.3,"release_date": "2005-02-18","tags": ["IT Certification Exams", "Object-Oriented Software Design","Design Pattern Programming"]}
{"index":{"_index":"books","_id":"6"}}
{"title": "Java Concurrency in Practice","author": "Brian Goetz with Tim Peierls, Joshua Bloch, Joseph Bowbeer, David Holmes, and Doug Lea","edition": 1,"synopsis": "Java Concurrency in Practice is one of the best Java programming books to develop a rich understanding of concurrency and multithreading.","amazon_rating": 4.3,"release_date": "2006-05-09","tags": ["Computer Science Books", "Programming Languages", "Java Programming"]}
{"index":{"_index":"books","_id":"7"}}
{"title": "Test-Driven: TDD and Acceptance TDD for Java Developers","author": "Lasse Koskela","edition": 1,"synopsis": "Test-Driven is an excellent book for learning how to write unique automation testing programs. It is a must-have book for those Java developers that prioritize code quality as well as have a knack for writing unit, integration, and automation tests.","amazon_rating": 4.1,"release_date": "2007-10-22","tags": ["Software Architecture", "Software Design & Engineering", "Java Programming"]}
 {"index":{"_index":"books","_id":"8"}}
 {"title": "Head First Object-Oriented Analysis Design","author": "Brett D. McLaughlin, Gary Pollice & David West","edition": 1,"synopsis": "Head First is one of the most beautiful finest book series ever written on Java programming language. Another gem in the series is the Head First Object-Oriented Analysis Design.","amazon_rating": 3.9,"release_date": "2014-04-29","tags": ["Introductory & Beginning Programming", "Object-Oriented Software Design", "Java Programming"]}
 {"index":{"_index":"books","_id":"9"}}
 {"title": "Java Performance: The Definite Guide","author": "Scott Oaks","edition": 1,"synopsis": "Garbage collection, JVM, and performance tuning are some of the most favorable aspects of the Java programming language. It educates readers about maximizing Java threading and synchronization performance features, improve Java-driven database application performance, tackle performance issues","amazon_rating": 4.1,"release_date": "2014-03-04","tags": ["Design Pattern Programming", "Object-Oriented Software Design", "Computer Programming Language & Tool"]}
 {"index":{"_index":"books","_id":"10"}}
 {"title": "Head First Design Patterns", "author": "Eric Freeman & Elisabeth Robson with Kathy Sierra & Bert Bates","edition": 10,"synopsis": "Head First Design Patterns is one of the leading books to build that particular understanding of the Java programming language." ,"amazon_rating": 4.5,"release_date": "2014-03-04","tags": ["Design Pattern Programming", "Object-Oriented Software Design eTextbooks", "Web Development & Design eTextbooks"]}

美两行实现一条文档的索引：

前一行指定记录文档所用的元数据。
后一行才是文档数据本身。

2，查询数据

尽管数据量非常少但也是时候行动起来检查我们如何检索、搜索和聚合这些文档了。

（1）文档总数

了解索引中有多少条文档是非常必要的， _count API 就提供这项功能:

从指定的索引（books）中获取文档数量。

获取文档总数：

GET index/_count			从指定索引获取文档总数
GET index-1,index-2/_count	从多个指定索引获取文档总数
GET _count					获取所有文档总数

（2）查询文档

每条文档都有独立的标识，有些是我们指定的，有些是自动生的。

只需要记得文档 ID 就能查询文档了：

仔细看看响应的内容，主要包括两部分：

由 _source 标签包裹的源文档数据。
其余的就是元数据。

如果要查询多个文档，就需要通过 _search API 使用包裹在 query 对象中的 ids：

在请求体中，使用了 query 对象来构建查询。
query 对象中包含一个名为 ids 的内部对象来指定 ID 列表。

不携带请求体的话，会列出所有文档：

查询文档：

GET <index>/_doc/<id>		# 查询单条文档

GET <index>/_source/<id>	# 只获取源文档数据

GET <index>/_source			# 获取指定 ID 的文档数据
{
 "query": {
   "ids": {
   "values": [id array]
   }
 },
}

目前看来，查询还没展示出 elasticsearch 的真正特性，比如获取某一作者总评分高于4.5的书这类比较复杂的查询，我们后面再讲这类高级的使用方式。

（3）只获取源数据地部分字段

如果需要的话，还能通过下面的方式禁止向客户端发送源数据：

还能进一步在其中添加 includes 参数指定想获取的字段：

GET books/_search
{
  "_source": {
    "includes": [
      "title",
      "synopsis"
    ]
  }
}

查询文档：

GET <index>/_source			# 不返回 source 数据
{
  "_source":false			
}

GET books/_search			# 返回 source 数据中指定地字段
{
  "_source": {
    "includes": [
      "title",
      "synopsis"
    ]
  }
}

GET books/_search			# 不返回 source 数据中指定地字段
{
  "_source": {
    "excludes": [
      "title",
      "synopsis"
    ]
  }
}

（4）单字段检索

全文检索是 elasticsearch 的重要应用：在已被索引的文档中检索出符合条件内容的文档。

：如果用户想搜索指定作者出的书，那么我们依旧可以使用 _search API，只不过此时要在 author 字段上应用 match query：

GET books/_search
{
  "query": {
    "match": {
      "author": "David Flanagan"
    }
  }
}

请求体的 query 对象中包含一个名为 match 的内部对象来指定在 author 字段上查找 “David Flanagan”。

让我们看看完整的检索结果：

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 3.077668,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "3",
        "_score" : 3.077668,
        "_source" : {
          "title" : "JavaScript: The Definitive Guide: Master the World's Most-Used Programming Language 7th Edition",
          "author" : "David Flanagan",
          "release_date" : "2020-12-01",
          "amazon_rating" : 4.7,
          "best_seller" : true,
          "prices" : {
            "usd" : 41.99,
            "gbp" : 33.7,
            "eur" : 40.07
          }
        }
      },
      {
        "_index" : "books",
        "_id" : "10",
        "_score" : 2.2201133,
        "_source" : {
          "title" : "Java in a Nutshell: A Desktop Quick Reference 7th Edition",
          "author" : [
            "Benjamin Evans",
            "David Flanagan"
          ],
          "release_date" : "2018-12-03",
          "amazon_rating" : 4.4,
          "best_seller" : false,
          "prices" : {
            "usd" : 22.69,
            "gbp" : 18.69,
            "eur" : 21.69
          }
        }
      }
    ]
  }
}

可以看到，文档收录了 David Flanagan 写的两本书，且各自的 _score 分数还不同。

让我们改变一下 author 的拼写：

"author": "David FlaNagan"	匹配 "_score" : 3.077668, "_score" : 2.2201133,  不变
"author": "DaviD FlaNagan"	匹配 "_score" : 3.077668, "_score" : 2.2201133,  不变
"author": "David Nagan"		匹配 "_score" : 1.538834, "_score" : 1.1100566,
"author": "Flanagan"		匹配 "_score" : 1.538834, "_score" : 1.1100566,  变化
"author": "David"			匹配 "_score" : 1.538834, "_score" : 1.1100566,  变化
"author": "DAVID"			匹配 "_score" : 1.538834, "_score" : 1.1100566,  变化
"author": "david"			匹配 "_score" : 1.538834, "_score" : 1.1100566,  变化
"author": "Nagan"			无检索结果
"author": "Davi"			无检索结果

发现没，elasticsearch 会自动调整 score，当某些匹配条件相近时， score 还会保持不变。
甚至 David Nagan 都还是能匹配到 David Flanaga 对应的书。

还能使用 prefix query 来实现正则匹配：

prefix query 是一个词（iterm）级别的查询，所以对应待查询字段的值只能是小写的。

"author": "dav"			匹配 "_score" : 1.0, "_score" : 1.0,  变化
"author": "Dav"			无检索结果

这里继续解释一个现象：搜 David Nagan （不存在的作者）都还是能匹配到 David Flanaga （存在的作者）对应的书。
这是因为 elasticsearch 将搜索 firstname lastname 视为搜索 firstname OR lastname，尽可能地匹配。
如果要修改这种逻辑关系，我们可以在请求体的字段匹配中使用运算符参数来精确地指定匹配逻辑：

GET books/_search
{
  "query": {
    "match": {
      "author": {
        "query":"David Nagan",
        "operator": "and"
      }
    }
  }
}

如果我们在搜索 title 时这种逻辑修改的结果更加明显：

GET books/_search
{
  "query": {
    "match": {
      "title": "Java learn"
    }
  }
}
将匹配七个结果：
"_score": 1.8459845, "title" : "Learn Java the Easy Way: A Hands-On Introduction to Programming",
"_score": 1.6362495, "title" : "Hands-On Software Architecture with Java: Learn key architectural techniques and strategies to design efficient and elegant Java applications",
"_score": 1.1598315, "title" : "Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition",
"_score": 1.0178609, "title" : "Effective Java",
"_score": 0.8989545,  "title": "Java: A Beginner’s Guide",
"_score": 0.72870094, "title": "Java: The Complete Reference, Twelfth Edition 12th Edition",
"_score": 0.6656655,  "title": "Java in a Nutshell: A Desktop Quick Reference 7th Edition",

修改后：
GET books/_search
{
  "query": {
    "match": {
      "title": {
        "query":"Java learn",
        "operator": "and"
      }
    }
  }
}
将匹配两个结果：
"_score" : 1.8459845, "title" : "Learn Java the Easy Way: A Hands-On Introduction to Programming",
"_score" : 1.6362495, "title" : "Hands-On Software Architecture with Java: Learn key architectural techniques and strategies to design efficient and elegant Java applications",

（5）跨字段检索

为了给搜索提供尽可能多的结果，我们就不能只将搜索对象限定在一个字段之内。

当能被搜索的字段足够多的时候，就成了所谓的“全文检索”。

elasticsearch 提供 multi_match query 实现多字段搜索。

：从标题和摘要中搜索关键字 Java：

GET books/_search
{
  "query":{
    "multi_match": {
      "query": "Java",
      "fields": ["title","synopsis"]
    }
  },
  "_source":{
    "includes": [
      "title",
      "synopsis"
    ]
  }
}
结果如下：
{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 12,
      "relation" : "eq"
    },
    "max_score" : 2.1310725,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "4",
        "_score" : 2.1310725,
        "_source" : {
          "synopsis" : "Convenient Java reference book examining essential portions of the Java API library, Java. The book is full of discussions and apt examples to better Java learning.",
          "title" : "Java - The Complete Reference"
        }
      },
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 2.0172975,
        "_source" : {
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "title" : "Effective Java"
        }
      },
      {
        "_index" : "books",
        "_id" : "9",
        "_score" : 1.902419,
        "_ignored" : [
          "synopsis.keyword"
        ],
        "_source" : {
          "synopsis" : "Garbage collection, JVM, and performance tuning are some of the most favorable aspects of the Java programming language. It educates readers about maximizing Java threading and synchronization performance features, improve Java-driven database application performance, tackle performance issues",
          "title" : "Java Performance: The Definite Guide"
        }
      },
      {
        "_index" : "books",
        "_id" : "6",
        "_score" : 1.8910649,
        "_source" : {
          "synopsis" : "Java Concurrency in Practice is one of the best Java programming books to develop a rich understanding of concurrency and multithreading.",
          "title" : "Java Concurrency in Practice"
        }
      },
      {
        "_index" : "books",
        "_id" : "5",
        "_score" : 1.8384864,
        "_source" : {
          "synopsis" : "The most important selling points of Head First Java is its simplicity and super-effective real-life analogies that pertain to the Java programming concepts.",
          "title" : "Head First Java"
        }
      },
      {
        "_index" : "books",
        "_id" : "1",
        "_score" : 1.7416387,
        "_source" : {
          "synopsis" : "Java reference book that offers a detailed explanation of various features of Core Java, including exception handling, interfaces, and lambda expressions. Significant highlights of the book include simple language, conciseness, and detailed examples.",
          "title" : "Core Java Volume I â€“ Fundamentals"
        }
      },
      {
        "_index" : "books",
        "_id" : "10",
        "_score" : 1.5168624,
        "_source" : {
          "synopsis" : "Head First Design Patterns is one of the leading books to build that particular understanding of the Java programming language.",
          "title" : "Head First Design Patterns"
        }
      },
      {
        "_index" : "books",
        "_id" : "8",
        "_score" : 1.3607827,
        "_source" : {
          "synopsis" : "Head First is one of the most beautiful finest book series ever written on Java programming language. Another gem in the series is the Head First Object-Oriented Analysis Design.",
          "title" : "Head First Object-Oriented Analysis Design"
        }
      },
      {
        "_index" : "books",
        "_id" : "3",
        "_score" : 1.3304513,
        "_source" : {
          "synopsis" : "One of the most comprehensive books for learning Java. The book offers several hands-on exercises as well as a quiz section at the end of every chapter to let the readers self-evaluate their learning.",
          "title" : "Java: A Beginnerâ€™s Guide"
        }
      },
      {
        "_index" : "books",
        "_id" : "7",
        "_score" : 1.2112259,
        "_source" : {
          "synopsis" : "Test-Driven is an excellent book for learning how to write unique automation testing programs. It is a must-have book for those Java developers that prioritize code quality as well as have a knack for writing unit, integration, and automation tests.",
          "title" : "Test-Driven: TDD and Acceptance TDD for Java Developers"
        }
      }
    ]
  }
}

我们通常无法一碗水端平——总是需要有侧重点。这就需要通过我们之前提到的 _score 得分 ——一个表明结果中文档与 query 相关度的正浮点数，并以此降序排列搜索结果（Okapi BM25 算法）——来为某些字段提供更高的优先级。

：从标题和摘要中搜索关键字 Java，标题优先级更高：

GET books/_search
{
  "query":{
    "multi_match": {
      "query": "Java",
      "fields": ["title","synopsis"]
    }
  },
  "_source":{
    "includes": [
      "title^2",
      "synopsis"
    ]
  }
}

（6）查询短语

到目前为止，我们都是在单词级别进行查询，而多数时候，我们需要查询的是一组短语，比如“must-have book for every Java programmer”，这可以通过使用 match_phrase query 来实现：

GET books/_search
{
  "query": {
    "match_phrase": {
      "synopsis": "must-have book for every Java programmer"
    }
  }
}
结果：
{
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 13.994365,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 13.994365,
        "_source" : {
          "title" : "Effective Java",
          "author" : "Joshua Bloch",
          "edition" : 3,
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "amazon_rating" : 4.7,
          "release_date" : "2017-12-27",
          "tags" : [
            "Object Oriented Software Design"
          ]
        }
      }
    ]
  }
}

而且多数时候我们并不能完全记得完整的短语组，比如漏掉几个词、拼错几个词。如果这时还是使用 match_phrase query 的话就不能搜索到任何内容，比如：

这显然是不能接受的，此时就应该使用带有能指示确实词数量的 slop 参数的 match_phrase query 来完成查询：

一个变体就是 match_phrase_prefix query，作用与 prefix query 相同，只不过是匹配短语罢了，比如：

（7）模糊查询

相对于漏词，拼错是一个更加普遍的问题。但好在所有的搜索引擎都支持模糊查询，我们可以用 fuzzy query 实现：

GET books/_search
{
  "query": {
    "fuzzy": {
      "title": {
        "value": "Kava",
        "fuzziness": 1	# 指定模糊量：这里允许模糊一个字母。
      }
    }
  }
}

（8）高亮查询结果

在查询结果中高亮被查询的内容是一个非常有用的功能，可以与 query 对象同级使用 highlight 对象对指定字段进行高亮：

到此为止，非结构化的全文检索的一些简单命令就讲完了，接下来讲讲对结构化数据的全文检索。

（9）iterm 级别的查询

Elasticsearch 创建了一种被称为 iterm 查询的查询形式来支持查询结构化数据。

相较于无法确定具体内容的非结构化数据，结构化数据指数字、范围、日期、IP 地址等可直接对比的内容：
我们并没有指定结构化数据的类型，主要由 elasticsearch 自行推断（手动指定的方法后面再说）。

elasticsearch 一两种不同的方式对待这两种结构的查询：结构化数据的查询是“非黑即白”的，不存在非结构化数据查询那种模棱两可的情况。

要事先分析非结构化数据。
直接排序结构化数据。

使用 term query 完成结构化数据的精确查询：

发现没，_score 都是 1.0，因为 iterm 级别的查询并不关心这个相似度。

使用 range query 完成结构化数据的范围查询，比如年龄在 18 ~ 65岁的人的信息、总成绩在256 ~ 500分的学生考号、在2020-10-01~2021-10-01期间收录的论文标题等等。举个例子：

我们已讲过这么多查询方式了，它们都比较简单，而实际的查询多数情况下都非常复杂，比如“查询 Joshua 2005年之后出版的评分超过4.5的第一个版本的书”。

3，复合查询

elasticsearch 提供复合查询来满足复杂查询的需要。

复合查询使用被称为叶查询的单个查询来构建健壮的复杂查询，一些复合查询类型如下：

最常用的就是布尔查询了，这里就只介绍它，更多的内容后面再说。

（1）布尔查询

bool query 用于根据布尔条件组合其他查询来创建复杂的查询逻辑。bool查询期望使用下面的 4 个子句构建搜索：

子句	释义
must	must 子句存放的查询必须在文档中匹配查询条件。应尽可能多地使用叶查询以提高相关性得分。
should	should 子句的查询应该在文档中匹配查询条件。
filter	filter 子句的查询必须在文档中匹配查询条件，但相关性得分会被忽略。
must_not	must_not 子句的查询不必在文档中匹配查询条件，返回所有文档的相关性得分为0。

现在将上面那个复杂的查询拆分一下：

（2）must 子句

我们要找 Joshua 写的书，可以创建一个包含 must 子句的布尔查询，然后让 must 子句包含一个 match query：

GET books/_search
{
 "query": {
   "bool": { 
     "must": [{ 
        "match":{
          "author": "Joshua Bloch"
        }
      }]
    }
  }
}

结果：
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 6.615054,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 6.615054,
        "_source" : {
          "title" : "Effective Java",
          "author" : "Joshua Bloch",
          "edition" : 3,
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "amazon_rating" : 4.7,
          "release_date" : "2017-12-27",
          "tags" : [
            "Object Oriented Software Design"
          ]
        }
      },
      {
        "_index" : "books",
        "_id" : "6",
        "_score" : 2.387682,
        "_source" : {
          "title" : "Java Concurrency in Practice",
          "author" : "Brian Goetz with Tim Peierls, Joshua Bloch, Joseph Bowbeer, David Holmes, and Doug Lea",
          "edition" : 1,
          "synopsis" : "Java Concurrency in Practice is one of the best Java programming books to develop a rich understanding of concurrency and multithreading.",
          "amazon_rating" : 4.3,
          "release_date" : "2006-05-09",
          "tags" : [
            "Computer Science Books",
            "Programming Languages",
            "Java Programming"
          ]
        }
      }
    ]
  }
}

布尔查询包含在 query 对象中。
must 子句接收一个 array，这意味着我们能向其中添加更多额外的查询，比如：

（3）must_not 子句

评分等于高于 4.7 换句话就是评分不低于 4.7。我们就用包含 range query 的 must_not 子句来实现：

GET books/_search
{
 "query": {
   "bool": { 
     "must": [{ "match":{ "author": "Joshua Bloch" }}],
     "must_not": [{ "range": { "amazon_rating": { "lt": 4.7}}}]
    }
  }
}

结果：
{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 6.615054,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 6.615054,
        "_source" : {
          "title" : "Effective Java",
          "author" : "Joshua Bloch",
          "edition" : 3,
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "amazon_rating" : 4.7,
          "release_date" : "2017-12-27",
          "tags" : [
            "Object Oriented Software Design"
          ]
        }
      }
    ]
  }
}

结果只剩一本书了。

（4）should 子句

除了搜索评分不低于4.7的Joshua所写的书，我们是否可以添加一个条件，如果这些书匹配一个标签(例如tag =“Software”)，则可以提高相关度得分?

should 子句的行为类似于 OR 运算符：如果匹配，相关性得分就会上升；如果单词不匹配，查询将不会失败，只是不加分。should 从句更多的是增加相关性分数，而不是影响结果。

GET books/_search
{
 "query": {
   "bool": { 
     "must": [{ "match":{ "author": "Joshua Bloch" }}],
     "must_not": [{ "range": { "amazon_rating": { "lt": 4.7}}}],
     "should": [{"match": {"tags": "Software"}}]
    }
  }
}

结果：
{
  "took" : 16,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 8.156579,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 8.156579,
        "_source" : {
          "title" : "Effective Java",
          "author" : "Joshua Bloch",
          "edition" : 3,
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "amazon_rating" : 4.7,
          "release_date" : "2017-12-27",
          "tags" : [
            "Object Oriented Software Design"
          ]
        }
      }
    ]
  }
}

结果的相关性得分更高了，说明结果更加精准了。

（5）filter 子句

我们将过滤出2015年之前出版的书，也就是说，不希望在结果集中出现2015年之前出版的书：

GET books/_search
{
 "query": {
   "bool": { 
     "must": [{ "match":{ "author": "Joshua Bloch" }}],
     "must_not": [{ "range": { "amazon_rating": { "lt": 4.7}}}],
     "should": [{"match": {"tags": "Software"}}],
     "filter":[{"range":{"release_date":{"gte": "2015-01-01"}}}]
    }
  }
}

结果：
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 8.156579,
    "hits" : [
      {
        "_index" : "books",
        "_id" : "2",
        "_score" : 8.156579,
        "_source" : {
          "title" : "Effective Java",
          "author" : "Joshua Bloch",
          "edition" : 3,
          "synopsis" : "A must-have book for every Java programmer and Java aspirant, Effective Java makes up for an excellent complementary read with other Java books or learning material. The book offers 78 best practices to follow for making the code better.",
          "amazon_rating" : 4.7,
          "release_date" : "2017-12-27",
          "tags" : [
            "Object Oriented Software Design"
          ]
        }
      }
    ]
  }
}

相关性得分没有变化。

4，聚合

我们已经了解了如何从给定的文档语料库中搜索文档。分析操作则着眼于大局，从一个非常高的层次分析数据，从而得出有用结论，比如：

我的网站的平均加载时间是多少？
根据交易量，谁是我最有价值的客户？
什么会被认为是我网络上的大文件？
每个产品类别有多少产品？

我们可以使用 aggregation APIs 在 Elasticsearch 中提供这个分析。聚合分为三类：

Metric aggregations：像 sum、min、max 和 average 这样的简单聚合都属于这一类聚合。它们提供跨一组文档数据的简单聚合值。
Bucket aggregations：帮助将数据收集到 bucket 中,然后将 bucket 按天数、年龄组等间隔分开。这些可以帮助我们构建直方图、饼图和其他可视化图形。
Pipeline aggregations：处理来自其他聚合的输出。

我们将在 _search 断点的请求体中使用 aggs 对象来代替 query 对象完成聚合工作。举个例子：

语法上来看，是非常清晰的。

为了更有效地展示聚合地作用，这里就使用新的索引：

POST covid/_bulk
{"index":{}}
{"country":"United States of America","date":"2021-03-26","cases":30853032,"deaths":561142,"recovered":23275268,"critical":8610}
{"index":{}}
{"country":"Brazil","date":"2021-03-26","cases":12407323,"deaths":307326,"recovered":10824095,"critical":8318}
{"index":{}}
{"country":"India","date":"2021-03-26","cases":11908373,"deaths":161275,"recovered":11292849,"critical":8944}
{"index":{}}
{"country":"Russia","date":"2021-03-26","cases":4501859,"deaths":97017,"recovered":4120161,"critical":2300}
{"index":{}}
{"country":"France","date":"2021-03-26","cases":4465956,"deaths":94275,"recovered":288062,"critical":4766}
{"index":{}}
{"country":"United kingdom","date":"2021-03-26","cases":4325315,"deaths":126515,"recovered":3768434,"critical":630}
{"index":{}}
{"country":"Italy","date":"2021-03-26","cases":3488619,"deaths":107256,"recovered":2814652,"critical":3628}
{"index":{}}
{"country":"Spain","date":"2021-03-26","cases":3255324,"deaths":75010,"recovered":3016247,"critical":1830}
{"index":{}}
{"country":"Turkey","date":"2021-03-26","cases":3149094,"deaths":30772,"recovered":2921037,"critical":1810}
{"index":{}}
{"country":"Germany","date":"2021-03-26","cases":2754002,"deaths":76303,"recovered":2467600,"critical":3209}

让紫铜自动生成文档 ID。

（1）Metrics

这是一类常用的简单聚合，主要是获取一些简单的统计数据。

假设我们想要找到所有前 10 个国家的危重患者总数：

GET covid/_search
{
	 "size": 0, 	# 不包含文档数据
	 "aggs": { #A Writing an aggregation query
		 "critical_patients": { #B User defined query output name
			"sum": {#C The sum metric - sum of all the critical patients
			"field": "critical" #D The field on which the aggregation is applied
			}
		 }
	 }
}

结果：
  "aggregations" : {
    "critical_patients" : {
      "value" : 44045.0
    }
  }

其它的聚合：

GET covid/_search
{
 "size": 0,
 "aggs": {
 "max_deaths": {
 "max": {
 "field": "deaths"
 }
 }
 }
}
结果：
"aggregations" : {
	 "max_deaths" : {
		 "value" : 561142.0
	 }
}

GET covid/_search
{
	 "size": 0,
	 "aggs": {
		 "all_stats": {
				"stats": { #A stats query returns all five core metrics in one go
				"field": "deaths"
			}
		 }
	 }
}
结果：
"aggregations" : {
	 "all_stats" : {
		 "count" : 20,
		 "min" : 30772.0,
		 "max" : 561142.0,
		 "avg" : 163689.1,
		 "sum" : 3273782.0
	 }
}

（2）Bucketing

这类聚合就是实现数据分组展示。

GET covid/_search
{
 "size": 0,
 "aggs": {
   "critical_patients_as_histogram": {
     "histogram": {
       "field": "critical",
       "interval": 2500
     }
   }
 }
}

结果为
{
  "took" : 6,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 10,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "critical_patients_as_histogram" : {
      "buckets" : [
        {
          "key" : 0.0,
          "doc_count" : 4
        },
        {
          "key" : 2500.0,
          "doc_count" : 3
        },
        {
          "key" : 5000.0,
          "doc_count" : 0
        },
        {
          "key" : 7500.0,
          "doc_count" : 3
        }
      ]
    }
  }
}

GET covid/_search
{
 "size": 0,
 "aggs": {
   "range_countries": {
     "range": {  
       "field": "deaths",  
       "ranges": [ 
           {"to": 60000},
           {"from": 60000,"to": 70000},
           {"from": 70000,"to": 80000},
           {"from": 80000,"to": 120000}
         ]
       }
     }
   }
}

结果：
  "aggregations" : {
    "range_countries" : {
      "buckets" : [
        {
          "key" : "*-60000.0",
          "to" : 60000.0,
          "doc_count" : 1
        },
        {
          "key" : "60000.0-70000.0",
          "from" : 60000.0,
          "to" : 70000.0,
          "doc_count" : 0
        },
        {
          "key" : "70000.0-80000.0",
          "from" : 70000.0,
          "to" : 80000.0,
          "doc_count" : 2
        },
        {
          "key" : "80000.0-120000.0",
          "from" : 80000.0,
          "to" : 120000.0,
          "doc_count" : 3
        }
      ]
    }
  }

累了，毁灭吧

你可能感兴趣的:(Elasticsearch,elasticsearch,搜索引擎,全文检索)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地