铭毅天下

干货 | Elasticsearch开发人员最佳实战指南

题记

几个月以来，我一直在记录自己开发Elasticsearch应用程序的最佳实践。本文梳理的内容试图传达Java的某些思想，我相信其同样适用于其他编程语言。我尝试尽量避免重复教程和Elasticsearch官方文档中已经介绍的内容。本文梳理的内容都是从线上实践问题和个人总结的经验汇总得来的。
文章从以下几个维度展开讲解：
映射（Mapping）
设置（Setting）
查询方式（Querying）
实战技巧（Strategy）
1、映射（Mapping）

1.1 避免使用nested类型

每个Elasticsearch文档都对应一个Lucene文档。
nested类型是个例外，对于nested类型，每个字段都作为单独的文档存储与父Lucene的关联。
其影响是：
nested与父文档中的字段相比，查询字段的速度较慢
检索匹配nested字段会降低检索速度
一旦更新了包含nested字段的文档的任何字段（与是否更新嵌套字段无关，则所有基础Lucene文档（父级及其所有nested子级）都需要标记为已删除并重写）。除了降低更新速度外，此类操作还会产生大量垃圾文件，直到通过段合才能进行清理。
在某些情况下，你可以将nested字段展平。
例如，给定以下文档：
{
"attributes": [
{"key": "color", "val": "green"},
{"key": "color", "val": "blue"},
{"key": "size", "val": "medium"}
]
}
展平如下：
{
"attributes": {
"color": ["green", "blue"],
"size": "medium"
}
}
1.2 Mapping设置strict

实际业务中，如果不明确设定字段类型，Elasticsearch有动态映射机制，会根据插入数据自动匹配对应的类型。
假定：本来准备插入浮点型数据，但由于第一个插入数据为整形，Elasticsearch 自定会判定为long类型，虽然后续数据也能写入，但很明显“浮点类型”只阉割保留了整形部分。
铭毅给个demo一探究竟：
POST my_index03/_doc/1
{
"tvalue":35
}

POST my_index03/_doc/2
{
"tvalue":3.1415
}

GET my_index03/_mapping

GET my_index03/_search
{
"query": {
"term": {
"tvalue": {
"value": 3.1415
}
}
}
}
注意：term查询是不会返回结果的。
所以，实战环境中，Mapping设定要注意如下节点：
显示的指定字段类型
尽量避免使用动态模板（dynamic-templates）
禁用日期检测（date_detection），默认情况下处于启用状态。“strict”实践举例：
PUT my_index
{
"mappings": {
"dynamic": "strict",
"properties": {
"user": {
"properties": {
"name": {
"type": "text"
},
"social_networks": {
"dynamic": "strict",
"properties": {
"network_id": {
"type": "keyword"
},
"network_name": {
"type": "keyword"
}
}
}
}
}
}
}
}
1.3 合理的设置string类型

Elasticsearch5.X 之后，String 被分成两种类型，text和keyword。两者的区别：
text：适用分词全文检索场景
keyword：适用字符串的精准匹配场景
默认，如果不显示指定字段类型，字符串类型自定映射后的Mapping如下所示：
"cont" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword",
"ignore_above" : 256
}
}
而公司实战的业务场景，通常会面临：
需不需要分词，不需要的话仅保留keyword即可。
需要用什么分词？英文分词还是中文分词？
分词后是否还需要排序和聚合，即fielddata是否需要开启
是否需要精准匹配，即是否需要保留keyword
所以，回答了如上几个问题，再有针对的显示设定string类型的Mapping方为上策！
2、设置（Setting）

在这里，我分享了Elasticsearch集群设置相关的技巧。
2.1 避免过度分片

分片是Elasticsearch的最大优势之一，即将数据分散到多个节点以实施并行化。关于这个主题有过很多讨论。
但请注意，索引的主分片一旦设置便无法更改（除非重建索引或者reindex）。
对于新来者来说，过度分片是一个非常普遍的陷阱。在做出任何决定之前，请确保先通读官方的这篇博文：
我在 Elasticsearch 集群内应该设置多少个分片？
https://www.elastic.co/cn/blog/how-many-shards-should-i-have-in-my-elasticsearch-cluster
铭毅提示：
主分片数过多:
批量写入或者查询请求被分割成过多的子写入、子查询，导致索引的写入、查询拒绝率上升。
主分片数过少：
尤其对于数据量非常庞大的索引，若分片数过少或者就1个分片，会导致无法利用集群多节点资源（也就是分布式特性），造成资源利用率不高或者不均衡，影响写入或者查询效率。
并且，一旦该大的主分片出现问题，恢复起来耗时会非常长。
2.2 取消学习任何段合并的技巧

从本质上讲，Elasticsearch是另一种分布式 Lucene产品，就像Solr一样。在底层，大多数时候，每个Elasticsearch文档都对应一个Lucene文档（nested除外，如1.1所述）。在Lucene中，文档存储在 segment中。后台的Elasticsearch通过以下两种模式连续维护这些Lucene段：
在Lucene中，当你删除或更新文档时，旧文档被标记为已删除，而新文档被创建。Elasticsearch会跟踪这些标记为deleted的文档，适时对其段合并。
新添加的文档可能会产生大小不平衡的段。Elasticsearch可能会出于优化目的而决定将它们合并为更大的段。

实战中一定要注意：段合并是高度受磁盘I / O和CPU约束的操作。
作为用户，我们不想让段合并破坏Elasticsearch的查询性能。
事实上，在某些情况下可以完全避免使用它们：一次构建索引，不再更改它。尽管在许多应用场景中可能很难满足此条件。一旦开始插入新文档或更新现有文档，段合并就成为不可避免的一部分。
正在进行的段合并可能会严重破坏集群的总体查询性能。在Google上进行随机搜索，你会发现许多人发帖求助求助：“在段合并中减少对性能的影响的配置“，还有许多人共享某些适用于他们的配置。但，很多配置都是早期1.x，2.X版本的设置，新版本已经废弃。
综上，我进行段合并的经验法则如下：
取消学习任何段合并的技巧。早期版本的段合并配置是与Elasticsearch的内部紧密耦合的操作，新版本一般不再兼容。几乎没有“神秘”的底层配置修改可以使它运行得更快。
找到translog flush 的最优配置。尝试调整index.translog.sync_interval和index.translog.flush_threshold_size设置。
详见：https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html
动态调整index.refresh_interval以满足业务需求。如果实时性要求不高，可以调大刷新频率（默认是1s，可以调到30s甚至更大）。
PUT /twitter/_settings
{
"index" : {
"refresh_interval" : "30s"
}
}
2.3 注意JVM内存设置

Elasticsearch可以根据两个主要内存设置产生引人注目的性能特征：
JVM堆空间——主要用途：缓存（节点缓存、分片请求缓存、Field data缓存以及索引缓存）
堆外内存空间——lucene段文件缓存

提醒你不要根据过去的非Elasticsearch JVM应用程序经验来盲目设置Elasticsearch JVM堆大小。
详见官方文档：
https://www.elastic.co/guide/en/elasticsearch/reference/current/heap-size.html
3、查询方式（Querying）

下面我收集了一些技巧，你可以在Elasticsearch查询时使用它们。
3.1 Elasticseach里面多线程修改如何保证数据准确性？

1,用如下两个参数校验冲突
PUT products/_doc/1?if_seq_no=1&if_primary_term=1
{ "title":"iphone", "count":100 }
2,用version避免冲突
PUT products/_doc/1?version=30000&version_type=external
{ "title":"iphone", "count":100 }
3.2 尝试分割复杂的查询，并行执行提升性能

如果你同时具有过滤器和聚合组件的复杂查询，则在大多数情况下，可以将它们拆分为多个查询并并行执行它们可以提高查询性能。
也就是说，在第一个查询中，仅使用过滤器获取匹配，然后在第二个查询中，仅获取聚合结果而无需再获取检索结果，即size: 0。
3.3 了解你的数字类型，防止被优化导致精度损失

许多JSON解析器可以进行各种优化，以提供有效的读/写性能。但可能造成了精度的损失，所以在选型Jackson json解析器时：优先使用BigDecimal和BigInteger。
3.4 不要使用Elasticsearch Transport / Node客户端

TransportClient可以支持2.x，5.x版本，TransportClient将会在Elasticsearch 7.X版本弃用并在8.X版本中完成删除.
官方推荐使用Java High Level REST Client，它使用HTTP请求而不是Java序列化请求。为了安全起见，坚持使用HTTP上的JSON格式，而不使用 SMILE (二进制格式）。
3.5 使用官方的Elasticsearch High-level REST客户端

非官方客户端一般更新太慢，几乎无法跟上Elasticsearch新版本的特性，如：Jest客户端近一年几乎没有更新，只支持到6.X版本。
相比之下，官方REST客户端仍然是你相对最好的选择。https://www.elastic.co/guide/en/elasticsearch/client/java-rest/current/index.html
3.6 不要使用HTTP缓存来缓存Elasticsearch响应结果

由于便利性和低进入门槛，许多人陷入了将HTTP缓存（例如Varnish http://varnish-cache.org/）置于Elasticsearch集群前面的陷阱。使用HTTP缓存缺点如下：
在生产环境中使用Elasticsearch时，由于各种原因如：弹性扩展、测试和线上环境分离、零停机升级等，你很有可能最终会拥有多个集群。
（1）一旦为每个集群提供专用的HTTP缓存，99％的缓存内容是重复的。
（2）如果你决定对所有集群使用单个HTTP缓存，那么很难以编程方式配置HTTP缓存以适应不断变化的集群状态的需求。
如何传达集群负载以使缓存平衡流量？
如何配置计划内或手动停机时间？
在维护时段期间，如何使缓存逐渐从一个集群迁移到另一个集群？
这些都是亟待考虑的问题。
如上所述，HTTP缓存很难以编程方式进行实现。当你需要手动删除一个或多个条目时，它并不总是像DELETE FROM cache WHERE keys IN (...)查询那样容易。还得通过手动实现。
铭毅提示：这一条我实际没有用过，有用过的童鞋可以留言讨论。
3.7 使用基于_doc排序的slice scroll 遍历数据

Scrolls 是Elasticsearch提供的一种遍历工具，用来扫描整个数据集以获取大量甚至全量数据。它在功能上及内部实现上与RDBMS游标非常相似。但是，大多数人在第一次尝试中都没有使正确他。以下是一些基本知识：
如果你接触到scrolls，你可能正在读取大量数据。slicing 很可能会帮助你显著提高读取性能。
使用_doc进行排序，读取速度就会提高20％+，而无需进行其他任何更改。（_doc是一个伪字段）
scrollId调用之后会有变化。因此，请确保你始终使用最新检索的滚动scrollId。
在Reindex的时候使用slicing 也能提升索引数据迁移效率。
3.8 单文档检索优先使用 GET /index/type/{id}而非POST /index/_search

Elasticsearch使用不同的线程池来处理 GET /index/type/{id}和 POST /index/_search查询。
使用POST /index/_search与有效载荷{query: {"match": {"_id": "123"}}}（或类似的东西）占据搜索专用线程池。
在高负载下，这将同时降低搜索和单个文档的获取性能。
所以，单文档坚持使用：GET /index/type/{id}。
3.9 使用size: 0和includes/ excludes限定字段返回

Elasticsearch在添加size: 0子句前后会带来显著的性能差异。
除非业务需要，才返回必要字段，无需返回的字段通过includes和excludes控制。
3.10 提前做好压力测试，了解系统支持的上限

分享我的个人最佳实践：
使用应用程序的性能基准（ performance benchmarks）测试来估计应用程序能提供支持的性能负载上限。
如基于esrally测试。
避免将线程池与无限制的任务队列一起使用。
队列的过度增长会对内存增加压力。
如果你的应用程序是借助第三方引擎中转或写入数据（例如，从kafka队列到Elasticsearch集群写入数据），请确保你的生产者对消费者的压力做出反应。
也就是说，如果消费者延迟开始增加，则最好开始降低生产者的速度。

3.11 在查询中提供明确的超时

几乎所有的Elasticsearch API都允许用户指定超时。
找出并摆脱耗时长的操作，节省相关资源，建立稳定的服务，这将对你的应用程序和Elasticsearch集群都有帮助。
3.12 不要使用注入变量的JSON模板

永远不要这样做：
{
"query": {
"bool": {
"filter": [
{
"term": {
"username": {
"value": {{username}}
}
}
},
{
"term": {
"password": {
"password": {{password}}
}
}
},
]
}
}
}
防止SQL注入，只要有人通过恶意username 和password输入，将暴露你的整个数据集，这只是时间问题。
我建议使用两种安全的方法来生成动态查询：
使用Elasticsearch官方客户端提供的查询模型。（这在Java上效果很好。）
使用JSON库（例如Jackson）构建JSON树并将其序列化为JSON。
4、实战技巧（Strategy）

在最后一节中，我收集了解决上述未解决问题的便捷的实战技巧。
4.1 始终（尝试）坚持使用最新的JVM和ES版本

Elasticsearch是一个Java应用程序。像其他所有Java应用程序一样，它也有hot paths和垃圾回收问题。几乎每个新的JVM版本都会带来很多优化，你可以不费吹灰之力利用这些优化。
Elasticsearch有一个官方页面，列出了支持的JVM版本和垃圾收集器。在尝试任何JVM升级之前，请务必先翻一翻如下文章清单：
https://www.elastic.co/guide/en/elasticsearch/guide/current/_don_8217_t_touch_these_settings.html
https://www.elastic.co/cn/support/matrix#matrix_jvm
注意：Elasticsearch升级也是免费获得性能提升的来源。
4.2 使用Elasticsearch完整和部分快照进行备份

Elasticsearch可以便捷的实现全部索引的全量快照或者部分索引数据的增量快照。
根据你的更新模式和索引大小，找到适合你的用例的快照最佳组合。
也就是说，例如，在00:00时有1个完整快照，在06:00、12:00和18:00时有3个局部增量快照。将它们存储在第三方存储也是一种好习惯。
有一些第三方插件可以简化这些情况。
举例：https://www.elastic.co/guide/en/elasticsearch/plugins/master/repository.html
与每份备份方案一样，安全起见，请确保快照可以还原并反复练习几次。
4.3 有一个持续的性能测试平台

像任何其他数据库一样，Elasticsearch在不同条件下显示不同的性能：
索引，文档大小；
更新，查询/检索模式；
索引，集群设置；
硬件，操作系统，JVM版本等。
很难跟踪每个设置的改变以观察其对整体性能的影响。确保你（至少）进行每日性能测试，以帮助缩小范围，快速定位最近引入的、导致性能下降的可能的原因。
这种性能测试说起来容易做起来难。你需要确保测试环境：
能有代表性的生产环境数据
配置和生产环境一致
完全覆盖用例
考虑包括操作系统缓存的测试的影响。
4.4 使用别名

告诉你一些颇有见地的实操经验：永远不要查询索引，而要查询别名。
别名是指向实际索引的指针。你可以将一个或多个索引归为一个别名。
许多Elasticsearch索引在索引名称上都有内部上下文，例如events-20190515 代表20190515这一天的数据。
现在，在查询events-索引时，应用程序代码中有两个选择：
选择1：通过特定日期格式即时确定索引名称：events-YYYYMMDD。
这种方法有两个主要缺点：
（1）需要回退到特定日期的索引，因此需要对整个代码库进行相应的设计以支持这种操作。
（2）撇开所有时钟同步问题，在凌晨，你需要用程序或者脚本控制索引切换，确保数据写入下一天索引。
选择2：创建一个events别名，指向events-相关的索引。负责创建新索引的组件如：curator或者ILM（索引生命周期管理）可以自动将别名切换到新索引。
这种方法将带来两个明显的好处：
（1）它没有以前方法的缺点。
（2）只需指向events 别名，代码就会更简洁。
4.5 避免拥有大量同义词

Elasticsearch支持索引阶段和查询阶段指定同义词。
没有同义词，搜索引擎是不完整的，但实战使用环境，注意如下问题：
索引阶段同义词增加了索引大小，并增加了运行时开销。
查询阶段同义词不会增加索引的大小，但顾名思义，这会增加运行时开销。
使用同义词，很容易在尝试修复其他问题时无意间破坏某些其他内容。
所以，要持续监视同义词对性能的影响，并尝试为添加的每个同义词编写测试用例。
同义词官方文档：
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html
4.6 在启用副本之前强制段合并及增加带宽

一个非常常见的Elasticsearch用例是：定期（每两小时一次）创建一个索引。
关于如何实现最佳性能，SoundCloud上有一篇非常不错的文章。从该文中引用，我特别发现以下几项“必须”。
在完成索引创建后，务必启用副本。
在启用副本之前，请确保：
（1）通过强制合并来缩小索引大小；
POST /twitter/_forcemerge
（2）临时增加副本传输带宽，直到分配完成为止 indices.recovery.max_bytes_per_sec。默认：40mb，该属性允许用户在恢复过程中控制网络的流量。设置一个比较大的值会导致网络变得繁忙，当然恢复过程也会加快。可以通过如下方式调整：
PUT /_cluster/settings
{
"transient": {
"indices.recovery.max_bytes_per_sec": "50mb"
}
}
推荐阅读：
https://developers.soundcloud.com/blog/how-to-reindex-1-billion-documents-in-1-hour-at-soundcloud
4.7 记录应用程序级别指标

Kibana对Elasticsearch性能提供了多维监控指标仪表盘：

indexing,
search latency and throughput,
flush
merge operations
GC pauses
heap size
OS (CPU usage, disk I/O
kernel caches 等......
但，这还不够。如果由多个应用程序使用，Elasticsearch将受到各种访问模式的影响。
想象一下，你的应用程序A试图删除1000万个不太重要的用户文档，而另一个组件B试图更新用户帐户详细信息。
如果你查看Elasticsearch监控指标，一切都是绿色正常。
但是，此时更新账户的用户可能不满意他们尝试更新帐户时的延迟。
因此，始终为你的Elasticsearch查询提供额外的应用程序级指标。
尽管Elasticsearch结合kibana或者cerbro已经为整体集群性能提供了足够的指标，但它们缺乏特定于操作的上下文监控，需要结合实际业务特事特办。
4.8 重视CPU的配置选型和使用率监控

怎么强调CPU都不过分。
从我过去的经验来看，无论是写负载还是读负载场景，CPU一直是我们的瓶颈。
4.9 谨慎编写自定义的Elasticsearch插件

许多Elasticsearch版本包含重大的内部更改。你的插件所基于的公共API很可能会向后不兼容。
你需要调整部署过程，不能再使用原始的Elasticsearch工作。
由于你的应用程序依赖于于插件提供的特定功能，因此在集成测试过程中运行的Elasticsearch实例也需要包含插件。你也就不能再使用原始的Docker镜像。
5、小结

本文是基于荷兰计算机博士：Volkan Yazıcı 文章翻译。翻译工作得到原作者的同意和许可。
原文名称：Elasticsearch Survival Guide for Developers
原文地址：https://vlkan.com/blog/post/2019/04/25/elasticsearch-survival-guide/#transport-client
文章很多细节值得实践中进一步消化吸收。文章没有直译，而在原文基础上，部分内容做了增删，部分内容加了实践和贴图，以达到简洁、通透的目的。
由于语言差异，尽管我翻译后又修正了2遍，难免部分细节还可能有些拗口，欢迎大家留言讨论。

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Grafana仪表盘设计最佳实践：如何创建有效的监控面板范范0825 grafana 信息可视化
Grafana仪表盘设计最佳实践：如何创建有效的监控面板引言Grafana是一个开源的数据可视化和监控平台，它提供了丰富的仪表盘功能，用于展示和分析各种数据源（如Prometheus、InfluxDB、Elasticsearch等）。有效的仪表盘设计能够帮助团队迅速识别和解决问题，提高系统的可靠性和性能。本文将深入探讨如何设计高效的Grafana仪表盘，涵盖最佳实践和实际应用。1.了解需求和目标1
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
Elasticsearch——配置详解 smart哥 elasticsearch专题 elasticsearch 搜索引擎
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析阶段5、深入jvm源码解析码哥源码部分码哥讲源码-原理源码篇【2024年最新大厂关于线程池使用的场
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

干货 | Elasticsearch开发人员最佳实战指南

你可能感兴趣的:(Elasticsearch)