w1346561235

elasticsearch分片分配和路由配置

本文基于es7.3版本。
集群级别的分片分配配置，主要有下面几个：

cluster.routing.allocation.enable：启用或禁止特定种类分片的分配。有下面四种取值：

all - (default) Allows shard allocation for all kinds of shards.允许所有种类分片的分配，包括primary和replica。默认行为。
primaries - Allows shard allocation only for primary shards.仅允许primary分片的分配，节点重启后，replica的分片不恢复。
new_primaries - Allows shard allocation only for primary shards for new indices.仅允许新建索引的primary分片的分配。测试了一下，貌似与上面的区别不大。
none - No shard allocations of any kind are allowed for any indices.不允许任何种类分片的分配。新建的索引也不会分配primary和replica分片。

仅影响变化的分片。默认情况下，集群中某个节点失败后，此节点上的shard会恢复到其他节点上，设置非all值，会导致失败节点上shard不会恢复到其他节点。这在集群维护时非常有用，避免了节点重启时，分片在节点间移动的开销。需要注意的是，无论何种取值，节点重启后，如果此节点上存在某分片的replica copy，并且集群中没有此分片的primary copy，则此replica copy会恢复为primary copy。另外，即使在none下，新建索引不分配任何分片，但是集群重启后，仍然会分配primary分片。

cluster.routing.allocation.node_concurrent_incoming_recoveries：单个节点的入口并发恢复的分片数量。表示此节点作为恢复目标节点，分片在其他节点或者是由于Rebalance或者是由于其他节点失败，导致需要在此节点上恢复分片。默认是2个并发分片。

cluster.routing.allocation.node_concurrent_outgoing_recoveries：单个几点的出口并发恢复的分片数量。表示此节点作为恢复的源节点，由于Rebalance导致需要从此节点迁移部分分片到其他节点。默认是2个并发分片。

cluster.routing.allocation.node_concurrent_recoveries：用于快速设置上面两个参数，至于这个是总数两个平分，还是分别设置两个限制，目前未知。先留个坑，等我翻看源码再回来填。从下面的代码看，是分别设置。

//ThrottlingAllocationDecider.java
public static final int DEFAULT_CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_RECOVERIES = 2;
    public static final int DEFAULT_CLUSTER_ROUTING_ALLOCATION_NODE_INITIAL_PRIMARIES_RECOVERIES = 4;
    public static final String NAME = "throttling";
    public static final Setting CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_RECOVERIES_SETTING =
        new Setting<>("cluster.routing.allocation.node_concurrent_recoveries",
            Integer.toString(DEFAULT_CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_RECOVERIES),
            (s) -> Setting.parseInt(s, 0, "cluster.routing.allocation.node_concurrent_recoveries"),
            Property.Dynamic, Property.NodeScope);
    public static final Setting CLUSTER_ROUTING_ALLOCATION_NODE_INITIAL_PRIMARIES_RECOVERIES_SETTING =
        Setting.intSetting("cluster.routing.allocation.node_initial_primaries_recoveries",
            DEFAULT_CLUSTER_ROUTING_ALLOCATION_NODE_INITIAL_PRIMARIES_RECOVERIES, 0,
            Property.Dynamic, Property.NodeScope);
    public static final Setting CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_INCOMING_RECOVERIES_SETTING =
        new Setting<>("cluster.routing.allocation.node_concurrent_incoming_recoveries",
            CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_RECOVERIES_SETTING::getRaw,
            (s) -> Setting.parseInt(s, 0, "cluster.routing.allocation.node_concurrent_incoming_recoveries"),
            Property.Dynamic, Property.NodeScope);
    public static final Setting CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_OUTGOING_RECOVERIES_SETTING =
        new Setting<>("cluster.routing.allocation.node_concurrent_outgoing_recoveries",
            CLUSTER_ROUTING_ALLOCATION_NODE_CONCURRENT_RECOVERIES_SETTING::getRaw,
            (s) -> Setting.parseInt(s, 0, "cluster.routing.allocation.node_concurrent_outgoing_recoveries"),
            Property.Dynamic, Property.NodeScope);

cluster.routing.allocation.node_initial_primaries_recoveries：单个节点并行initial primary恢复的并发数。指的是在节点restart后，本来属于此节点的primary shard进行的恢复。从本地磁盘进行的恢复。因此恢复较快。默认值为4。

cluster.routing.allocation.same_shard.host：设置是否检查同一台主机不能存放多个shard的copy。仅针对一个主机上运行同个集群的多个节点的情况。默认为false。

与恢复相关的其他参数：

indices.recovery.max_bytes_per_sec：单个几点进行恢复的inbound和outbound带宽的和。默认40mb。
indices.recovery.max_concurrent_file_chunks：每一个shard恢复可以并行发送的file chunk的数量。默认值为2。file chunk可理解为将文件内容分割为一个一个的chunk，类似操作系统的page的概念。oracle中共享池的内存分配单元就是按chunk来的，尽管各个chunk的大小不同。

集群级别的分片Rebalance配置：

cluster.routing.rebalance.enable：启用或禁止特定种类分片的Rebalance。有四种取值：

all - (default) Allows shard balancing for all kinds of shards. 启用所有类别分片的Rebalance。
primaries - Allows shard balancing only for primary shards.仅启用primary分片的Rebalance。
replicas - Allows shard balancing only for replica shards.仅启用replica分片的Rebalance。
none - No shard balancing of any kind are allowed for any indices.禁止分片Rebalance。

cluster.routing.allocation.allow_rebalance：指定何时可以进行分片Rebalance。有三种取值：

always - Always allow rebalancing. 总是允许。
indices_primaries_active - Only when all primaries in the cluster are allocated.仅仅当集群中所有primary分片都active的时候。
indices_all_active - (default) Only when all shards (primaries and replicas) in the cluster are allocated.仅仅当集群中所有分片都active。

cluster.routing.allocation.cluster_concurrent_rebalance：控制集群范围内并发Rebalance的分片数量。默认为2。仅仅影响由于分片分布不平衡产生的Rebalance操作。不影响因为分片分配过滤allocation filtering或者强制 awareness引起的分片迁徙。

shard rebalance heuristics设置参数：

cluster.routing.allocation.balance.shard：rebalance相关的分片因子，默认值为0.45f；
cluster.routing.allocation.balance.index：rebalance相关的索引因子，默认值为0.55f；与上面的配置参数一起，一起带入BalancedShardsAllocator类的静态内部类WeightFunction中进行计算。

//BalancedShardsAllocator.java
public static final Setting INDEX_BALANCE_FACTOR_SETTING =
        Setting.floatSetting("cluster.routing.allocation.balance.index", 0.55f, 0.0f, Property.Dynamic, Property.NodeScope);
    public static final Setting SHARD_BALANCE_FACTOR_SETTING =
        Setting.floatSetting("cluster.routing.allocation.balance.shard", 0.45f, 0.0f, Property.Dynamic, Property.NodeScope);
    public static final Setting THRESHOLD_SETTING =
        Setting.floatSetting("cluster.routing.allocation.balance.threshold", 1.0f, 0.0f,Property.Dynamic, Property.NodeScope);

@Inject
    public BalancedShardsAllocator(Settings settings, ClusterSettings clusterSettings) {
        setWeightFunction(INDEX_BALANCE_FACTOR_SETTING.get(settings), SHARD_BALANCE_FACTOR_SETTING.get(settings));
        setThreshold(THRESHOLD_SETTING.get(settings));
        clusterSettings.addSettingsUpdateConsumer(INDEX_BALANCE_FACTOR_SETTING, SHARD_BALANCE_FACTOR_SETTING, this::setWeightFunction);
        clusterSettings.addSettingsUpdateConsumer(THRESHOLD_SETTING, this::setThreshold);
    }

    private void setWeightFunction(float indexBalance, float shardBalanceFactor) {
        weightFunction = new WeightFunction(indexBalance, shardBalanceFactor);
    }


public static class WeightFunction {

        private final float indexBalance;
        private final float shardBalance;
        private final float theta0;
        private final float theta1;


        public WeightFunction(float indexBalance, float shardBalance) {
            float sum = indexBalance + shardBalance;
            if (sum <= 0.0f) {
                throw new IllegalArgumentException("Balance factors must sum to a value > 0 but was: " + sum);
            }
            theta0 = shardBalance / sum;
            theta1 = indexBalance / sum;
            this.indexBalance = indexBalance;
            this.shardBalance = shardBalance;
        }

        public float weight(Balancer balancer, ModelNode node, String index) {
            return weight(balancer, node, index, 0);
        }

        public float weightShardAdded(Balancer balancer, ModelNode node, String index) {
            return weight(balancer, node, index, 1);
        }

        public float weightShardRemoved(Balancer balancer, ModelNode node, String index) {
            return weight(balancer, node, index, -1);
        }

        private float weight(Balancer balancer, ModelNode node, String index, int numAdditionalShards) {
            final float weightShard = node.numShards() + numAdditionalShards - balancer.avgShardsPerNode();
            final float weightIndex = node.numShards(index) + numAdditionalShards - balancer.avgShardsPerNode(index);
            return theta0 * weightShard + theta1 * weightIndex;
        }
    }

cluster.routing.allocation.balance.threshold：阈值。当节点间权重差值大于这个值时，才会进行分片的reallocate。默认值为1.0f，增大这个值，将会降低reallocate的敏感度：

private static boolean lessThan(float delta, float threshold) {
            /* deltas close to the threshold are "rounded" to the threshold manually
               to prevent floating point problems if the delta is very close to the
               threshold ie. 1.000000002 which can trigger unnecessary balance actions*/
            return delta <= (threshold + 0.001f);
        }

除了上面集群级别设置之外，分片分配还收到基于磁盘的分片分配Disk-based shard allocation和基于awareness的分片分配Shard allocation awareness的影响。

es会考虑磁盘剩余空间的多少，来决定是否分配新的分片到节点或者将分片从节点中迁移到集群中其他节点。如下是相关参数设置：
cluster.routing.allocation.disk.threshold_enabled：设置是否启用基于磁盘的分配策略。默认为true。
cluster.routing.allocation.disk.watermark.low：设置磁盘使用空间的低水线限制。默认值为85%，表示磁盘使用空间达到85%后，除了新建索引的primary shards以及之前从未分配过的shards（unassigned shards），es将不会分配其他shard到此节点。设置为字节值，例如500mb，则表示磁盘剩余空间限制。
cluster.routing.allocation.disk.watermark.high设置磁盘使用空间的高水线限制。默认值为90%，表示磁盘使用空间达到90%后，es将会尝试将分片从此节点迁出。此影响针对所有类型的分片，包括unassigned shards。可以设置为字节值，例如250mb，表示磁盘剩余空间限制。
cluster.routing.allocation.disk.watermark.flood_stage：磁盘使用率的最高限制。默认值为95%，表示当磁盘使用率达到95%后，es将会设置所有在此节点上有分片存储的index为readonly并允许delete的（index.blocks.read_only_allow_delete）。当磁盘空间释放后，被设置为index.blocks.read_only_allow_delete的index，需要通过如下语句重置：

PUT /twitter/_settings
{
  "index.blocks.read_only_allow_delete": null
}

需要注意的是，以上三个参数不能混合使用百分比与字节值。要么三个都使用百分比，要么都使用字节值。并且百分比值需要递增，字节值需要递减。
cluster.info.update.interval：设置磁盘空间检查频率。默认为30s。
cluster.routing.allocation.disk.include_relocations：设置评估磁盘使用率时是否考虑正在reallocate中的分片的空间。默认值为true。这会导致磁盘使用率的评估偏高，假设reallocate的分片大小为1G，reallocate过程已完成了50%，那这个评估过程会多出这50%的空间占用。参数设置举例如下：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.disk.watermark.low": "100gb",
    "cluster.routing.allocation.disk.watermark.high": "50gb",
    "cluster.routing.allocation.disk.watermark.flood_stage": "10gb",
    "cluster.info.update.interval": "1m"
  }
}

基于awareness的分配是考虑了这样的想定：一个elasticsearch集群可能包含了若干服务器，这些服务器可能分布在若干机架或不同地理位置的机房或不同网络区域。基于容灾的考虑，可能会将同个索引的primary、replica分片分布在不同的机架上；或是基于就近获取的考虑，将get请求路由到与coordinator处于同个网络区域的节点。启用shard allocation awareness需要做如下设置：

1，在节点的elasticsearch.yml配置文件中设置节点属性，属性名称与值是任意指定的，假设我的集群中有3个节点，这里指定my_rack_id的属性:
node1： node.attr.my_rack_id: rack1
node2： node.attr.my_rack_id: rack1
node3： node.attr.my_rack_id: rack2

2，在节点的elasticsearch.yml配置文件中，指定cluster.routing.allocation.awareness.attributes：
cluster.routing.allocation.awareness.attributes: my_rack_id
或者通过cluster update api指定：

PUT _cluster/settings
{
  "persistent": {
    "cluster.routing.allocation.awareness.attributes":"my_rack_id"
  }
}

cluster.routing.allocation.awareness.attributes设置要特别小心，如果设置错误，比如设置了不存在的属性，会导致分片分配错误，新建的索引无法分配分片，已存在的索引replica copy无法分配，导致集群healthy变为yellow甚至red状态。

注意，这个的三个节点中，node1和node2设置了my_rack_id都为rack1，node3只是my_rack_id为rack2。

现在考虑这样一种情况，假设给每个索引设置3个分片，1个replica。那么此时，集群共有6个分片，平均每个节点3个。按照我上面的设置，那么必然node3会存放3个分片的各一个copy，也就是node3上会有3个分片，另外两个节点上随机分布3个节点。此时，整个集群时不平衡的，但是这是为了满足用户的设置。

情况在发展，you know, things going on 。这个时候node3挂掉了，如果其中一个节点丢失，那么此时，node3上的分片会迁移到另外两个节点，而忽略了awareness的容灾要求的设置。这个时候会变成node1，node2平分6个分片的情况。如果需要强制保留node3挂掉之前的效果，需要设置cluster.routing.allocation.awareness.force来让同一个my_rack_id区域的节点上，不会分配一个分片的多余一个copy。既在node3挂掉之后，node1、node2上只会分布所有分片repica group的其中一个copy，而不是所有。此时node1，node2上的copy会全部转变成primary copy，而没有replica copy。这个时候，索引的状态是yellow。如下：

PUT _cluster/settings
{
  "persistent": {
    "cluster.routing.allocation.awareness.attributes":"my_rack_id",
    "cluster.routing.allocation.awareness.force.rack_id.values":"rack_one,rack_two"
  }
}

同样可以通过shard allocation filter过滤（include或者exclude）分片在节点上的分布，相关的设置参数有下面三个：
cluster.routing.allocation.include.{attribute}：Allocate shards to a node whose {attribute} has at least one of the comma-separated values。将shard分配到至少有一个attribute-value的节点上。{attribute}的值是一个逗号分隔的属性值列表； cluster.routing.allocation.require.{attribute}：Only allocate shards to a node whose {attribute} has all of the comma-separated values。将shard分配到拥有所有attribute-values的节点上。 cluster.routing.allocation.exclude.{attribute}：Do not allocate shards to a node whose {attribute} has any of the comma-separated values。将shard从拥有任何attribute-value的节点上排除掉，移走。需要注意的是，这个并不是强制生效的。同时需要符合其他的设置，例如这里的node1和node2的rack_id为rack_one，node3的rack_id为rack_two，当设置awareness为rack_id时，primary 和replica shard不能都分布在同一个rack_id上。 {attribute}支持自定义属性及下面的内建属性：

`_name`	Match nodes by node names
`_ip`	Match nodes by IP addresses (the IP address associated with the hostname)
`_host`	Match nodes by hostnames

举例如下：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.exclude._ip": "192.168.2.*","192.168.1.*"
  }
}
PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.include._name": "node1","node2"
  }
}
PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.require.rack_id": "rack_one","rack_two"
  }
}

因为可以动态设置，这一功能通常使用在节点停机时，通过设置cluster.routing.allocation.exclude将分片从此节点移出到其他节点。

其他设置：
cluster.blocks.read_only：Make the whole cluster read only (indices do not accept write operations), metadata is not allowed to be modified (create or delete indices)。使整个集群只读。禁止包括document的CUD操作，以及索引元数据的修改（创建、删除索引）；
cluster.blocks.read_only_allow_delete：Identical to cluster.blocks.read_only but allows to delete indices to free up resources。使集群只读，但是可进行删除操作以释放空间。
cluster.max_shards_per_node：Controls the number of shards allowed in the cluster per data node。集群中单个data节点允许的open的分片数量，closed的index所属的shard不计算在内。默认1000。如果集群中data node节点数固定的话，这个值也限定了整个集群中shard的数量，包括primary和replica的shard。在进行create index/restore snapshot/open index时，如果会导致节点上的分片数超过设置的话，会造成操作失败。同时因为更改设置导致分片上存在了多余设置的值，（例如节点上已存在900个shard，此时修改设置为500），会造成不能新建和open索引。
cluster.metadata.*：用户自定义设置。可以设置任何自定义配置和配置值。
cluster.indices.tombstones.size：索引墓碑大小设置，默认值500。静态设置。cluster state中维护了deleted的index的index_name、index_uuid、以及删除时间delete_date_in_millis信息。可通过如下dsl获取：

GET _cluster/state?filter_path=metadata.index-graveyard.tombstones

这个设置用于控制cluster state中维护deleted index的数量。当节点A从集群中离开后，此时集群中进行了删除索引的操作。操作成功后，此时集群中已经没有这个index的任何记录了。此后，节点A再次加入集群，由于es的特点，当节点重新加入集群时会import节点中有的，集群中没有的index，因此可能会re-import这些在节点A离开期间删除掉的索引，可能会抵消掉索引的删除操作。为了对抗这个影响带来的错误影响，cluster state中维护了deleted的索引信息。当集群频繁删除索引时，可调大此设置，维护过多的deleted index会造成cluster state膨胀，需要权衡。

持久化任务（persistent task）分配相关设置：
持久化任务创建后会存储在cluster state中，以保证集群重启后仍然存在。但是task需要分配到具体的node上去执行。
cluster.persistent_tasks.allocation.enable：启用或禁用持久化任务分配。取值为all、none：这个设置不影响已经存在的task，只影响新建或者需要重新分配节点的task（例如节点失去连接，资源不足等）。

all - (default) Allows persistent tasks to be assigned to nodes
none - No allocations are allowed for any type of persistent task

cluster.persistent_tasks.allocation.recheck_interval：task重新分配检查间隔。当节点失去连接后，节点上的task会自动由master分配到其它节点上执行，这是因为节点离开后，cluster state会变化，此时master是知道哪个节点上的task需要重新分配节点的。但是当节点因为资源不足需要将task分配到其他节点时，就需要master定期进行检查。默认值30s，最小值为10s。

Logger日志相关设置：这个放在日志相关中介绍。

Springboot --- 整合spring-data-jpa和spring-data-elasticsearch 百世经纶『一页書』 Springboot Java springboot
Springboot---整合spring-data-jpa和spring-data-elasticsearch1.依赖2.配置文件3.代码部分3.1Entity3.2Repository3.3Config3.4Service3.5启动类3.6Test3.7项目结构SpringBoot:整合Ldap.SpringBoot:整合SpringDataJPA.SpringBoot:整合Elasticse
Elasticsearch 根据字段值去重前的个数过滤数据（qbit）
前言本文对Elasticsearch7.17适用假定有个ip类型的字段client_ip，需要根据字段值的个数过滤数据在query中使用script只能通过doc['client_ip']获取到去重后的个数研究发现使用runtime_mappings可以动态新建字段获取到不去重的个数示例创建索引PUTmy_index{"mappings":{"dynamic":false,"properties"
Elasticsearch 索引文档的流程 jiedaodezhuti elasticsearch 大数据搜索引擎
Elasticsearch索引文档的流程是一个分布式、多阶段的过程，涉及客户端请求、路由、主副本同步及持久化等步骤，具体流程如下：一、客户端请求与路由1.1文档接收与路由计算‌客户端通过RESTAPI发送文档写入请求，需指定索引名、文档ID（可选）及文档内容。Elasticsearch根据文档ID（或自定义routing值）哈希计算目标主分片位置。请求被转发到主分片所在的节点（协调节点或直接定位主
Elasticsearch连接 java.net.ConnectException: Connection refused: getsockopt swany elasticsearch java .net
使用springboot连接Elasticsearch创建全文索引，总是报连接不上的问题，报错如下：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'esContentService':Unsatisfieddependencyexpressedthroughfiel
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
使用docker-compose部署elk
使用DockerCompose部署ELK（Elasticsearch、Logstash、Kibana）的好处主要体现在以下几个方面：集中管理日志数据：ELK能够帮助业务实现日志数据的集中管理，通过Elasticsearch进行搜集、分析和存储，Kibana为Elasticsearch提供图形化界面，使得日志数据的查看和分析更加直观和便捷。快速搜索和分析：ELK能够快速搜索和分析日志数据，从而提高故
Elasticsearch模糊查询、多字段in查询、时间范围查询，DSL和java API两种方式 Gzzz__ Elasticsearch elasticsearch java javascript 开发语言后端
项目场景：Elasticsearch模糊查询某字段、多字段in查询、时间范围查询，通过DSL和javaAPI两种方式解决方案：一、模糊查询wildcard通配符检索使用wildcard相当于SQL的like，前后都可拼接*，匹配0到多个任意字符{"query":{"wildcard":{"name.keyword":"*文件*"}}}BoolQueryBuilderqueryBuilder=Que
Elasticsearch从入门到精通编程界的彭于晏qaq java 数据库缓存 es
Elasticsearch从入门到精通一、引言在当今数字化时代，数据呈现出爆炸式增长的态势，如何高效地存储、检索和分析这些海量数据成为了开发者们面临的重要挑战。Elasticsearch（简称ES）作为一款强大的分布式搜索和分析引擎，凭借其出色的性能、高可扩展性和实时搜索能力，在众多领域得到了广泛的应用。而Java作为一种广泛使用的编程语言，以其强大的功能和丰富的生态系统，成为了与ES结合的首选语
6.24_JAVA_微服务_Elasticsearch搜索灰太狼Coding java 微服务开发语言
1、FinalShell工具：单向工具，能将本地连接到虚拟机。（虚拟机连不到本地）我们用docker建的容器比如MQ，比如ES，我们能够访问它们的WEB操作地址，都是因为前面的地址不是localhost，而是虚拟机的IP。比如ES端口是9200，本地访问localhost:9200会无法访问。但是输入：192.168.XXX.XXX:9200可以访问。我们操作也实际上是操作的虚拟机的数据，而不是本
解决Elasticsearch Python客户端初始化报错：URL must include a ‘scheme‘, ‘host‘, and ‘port‘ Ven% 实用篇 elasticsearch python 阿里云
文章目录问题背景错误复现错误原因分析1.Elasticsearch客户端对URL格式的严格要求2.阿里云Elasticsearch的特殊要求3.环境变量配置不完整解决方案方案一：修改环境变量（推荐）方案二：在代码中自动补全URL方案三：使用客户端的基本认证参数阿里云Elasticsearch连接最佳实践完整代码示例总结问题背景在使用Python的Elasticsearch客户端连接阿里云Elast
Elasticsearch（ES）与 OpenSearch（OS）老兵发新帖 elasticsearch 大数据搜索引擎
Elasticsearch（ES）与OpenSearch（OS）本质上是同源分叉、独立演进的技术，两者关系可概括为“起源相同、目标分化”。以下是关键要点解析：一、核心关系：分叉与独立演进起源相同OpenSearch于2021年由AWS主导，从Elasticsearch7.10.2版本分叉而来[citation:2][citation:3][citation:4]。分叉原因：Elastic公司将El
探秘Flink Connector加载机制：连接外部世界的幕后引擎 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理生态中，SourceFunction负责数据的输入源头，而真正架起Flink与各类外部存储、消息系统桥梁的，则是Connector。从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。而这一切交互的基础，都离不开背后强大且精巧的Connector加载机制。接下来，我们将深
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
ELK搭建曾燕辉 elasticsearch logstash elk elasticsearch kibana java logstash
1、elasticsearch和kibana搭建配置见https://blog.csdn.net/yh_zeng2/article/details/148812447?spm=1001.2014.3001.55012、logstash下载下载和elasticsearch版本一致的logstash，下载地址：PastReleasesofElasticStackSoftware|Elastic这里下载
Elasticsearch 结果聚合与分页机制详解亲爱的非洲野猪 elasticsearch 大数据搜索引擎
一、结果聚合原理Elasticsearch的分布式结果聚合是通过两阶段查询过程完成的：1.查询阶段（QueryPhase）分片级处理：协调节点将查询广播到所有相关分片（主分片或副本分片）每个分片独立执行查询，计算本地相关性评分各分片返回前N条结果的文档ID和评分（N=from+size）特点：使用优先级队列（Top-HitsCollector）收集结果默认返回每个分片的Top10结果（可通过pre
【Elasticsearch】请求量和延迟对搜索性能的影响及关键指标分析 G皮T #Elastic elasticsearch 大数据搜索引擎性能搜索监控运维
1.请求量对搜索性能的影响2.延迟对搜索性能的影响3.其他重要的搜索性能指标3.1吞吐量（Throughput）3.2错误率（ErrorRate）3.3召回率（Recall）3.4精确率（Precision）3.5平均响应时间（AverageResponseTime）3.6百分位延迟（PercentileLatency）3.7缓存命中率（CacheHitRatio）3.8索引新鲜度（IndexFr
阿里云Elasticsearch生产环境误删数据恢复指南 Ven% 实用篇阿里云 elasticsearch
文章目录事故场景还原数据恢复全流程第一步：查看可用快照列表第二步：恢复指定快照数据关键参数解析恢复后操作阿里云快照机制注意事项灾难预防建议本文记录了一次生产环境中误删Elasticsearch索引数据的完整恢复过程，通过阿里云自动快照功能实现数据拯救，适用于所有使用阿里云ES服务的用户。事故场景还原某次维护操作中，开发人员误执行了以下命令，导致my_index索引数据被清空：POST/my_ind
从 Elasticsearch 集群中移除一个节点 Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎全文检索数据库
作者：来自ElasticJessicaGarson解释如何从Elasticsearch集群中移除一个节点。更多阅读：Elasticsearch：如何从Elasticsearch集群中删除数据节点Elasticsearch：如何使用集群级别的分片分配过滤（不包括节点）安全地停用节点永久删除Elasticsearch中的主节点想获得Elastic认证？了解下一次ElasticsearchEnginee
Python爬虫进阶：Scrapy+Playwright+智能解析高效爬取B站游戏实况视频数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 笔记开发语言游戏音视频
摘要本文将深入讲解如何构建一个高性能B站游戏实况视频爬虫系统，涵盖从逆向工程到分布式部署的全流程。项目采用Scrapy框架作为核心，集成Playwright处理动态渲染，使用智能解析技术应对B站反爬机制，结合MongoDB和Elasticsearch构建数据存储与检索系统，最终实现每小时可处理10万+视频数据的专业级采集方案。1.B站数据生态分析1.1游戏区数据价值热门游戏实时监测UP主影响力评估
Spring Boot中动态操作Elasticsearch的实践指南携程邮轮
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何在SpringBoot框架下动态地操作Elasticsearch组件。Elasticsearch作为一款强大的分布式搜索引擎，经常用于大数据分析和实时搜索任务。通过利用SpringDataElasticsearch模块，可以简化Java应用中Elasticsearch的CRUD操作。本文将指导如何实现单个文档的增删改查、模糊查询、分页查询、特
springboot2.X集成spring data elasticsearch 向阳不像羊 spring elasticsearch java
1.准备工作在集成es之前，我们需要选择springboot对应的es版本，版本一定要选择正确，否则后面可能会出现各种各样的问题。下图是springboot与es客户端版本对应关系：我的springboot版本是2.4.10，所以这里我选择es客户端7.9.3的版本es下载链接：DownloadElasticsearch|Elasticik分词器下载链接：https://github.com/me
springboot 接入elasticsearch qq_41813060 Java ES elasticsearch spring boot java
准备环境：参考https://blog.csdn.net/weixin_44141284/article/details/121553749修改ES解压目录/config/elasticsearch.yml文件，防止cors，末尾需要添加http.cors.enabled:truehttp.cors.allow-origin:"*"1.springbootpom.xmlorg.springfram
SpringBoot整合Spring Data Elasticsearch 2501_90254160 spring spring boot elasticsearch
2.0.6.RELEASEUTF-8UTF-81.8org.springframework.bootspring-boot-starter-data-elasticsearchorg.springframework.bootspring-boot-starter-testtestorg.springframework.bootspring-boot-maven-plugin目录结构：applica
【Elasticsearch】运维监控：分片和节点 G皮T #Elastic elasticsearch 大数据搜索引擎集群监控运维分片节点
运维监控：分片和节点1.分片对集群健康的影响1.1分片分配状态1.2分片数量配置1.3分片数据均衡2.节点维度对集群健康的影响2.1节点角色失衡2.2节点资源瓶颈2.3节点故障场景3.分片与节点关联影响3.1分片-节点分布关系3.2资源竞争模型4.最佳实践建议1.分片对集群健康的影响1.1分片分配状态未分配分片：直接导致集群状态变为RED/YELLOW。案例：当5个主分片中有1个无法分配时，集群变
Node.js升级工具n 奔跑吧邓邓子高效运维工具使用 nodejs npm
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
The Elastic Stack 简介 wangyadong317 大数据 elasticsearch
AnoverviewoftheElasticStack什么是ElasticStack呢？ElasticStack是一组组件包含：Elasticsearch,Beat,APM,Kibana等是一整套技术栈的组合。从整体视角来看分为三个部分1.Ingest（吸入吸收）数据的吸收，个人理解就是数据的收集我是根据单词直译的当然可能不够信达雅2.Store数据存储，代表技术栈是ElasticSearch3.
ES数据的备份和导入猫狗熊蛇运维 es6
备份ES索引：#!/bin/bash#定义Elasticsearch地址ELASTICSEARCH_URL="http://X.X.X.X:9200"#从命令行参数获取索引名INDEX_NAME=$1BACKUP_DIR="/data/es/lastdata"#定义bulkSize和concurrency参数BULK_SIZE=500CONCURRENCY=3#从命令行参数获取偏移量OFFSET=
Elasticsearch创建快照API详解时昕海Minerva
Elasticsearch创建快照API详解elasticsearch项目地址:https://gitcode.com/gh_mirrors/elas/elasticsearch什么是快照在Elasticsearch中，快照(Snapshot)是一种备份机制，它可以将集群当前的状态和数据保存到一个外部存储系统中。快照功能对于数据备份、灾难恢复和集群迁移等场景非常重要。创建快照API概述创建快照AP
vm.max_map_count是什么？起到什么作用 MonkeyKing.sun python
vm.max_map_count是Linux内核中的一个参数，它决定了一个进程可以拥有的最大内存映射区域数。内存映射区域是指内存映射文件、匿名内存映射等。这个参数对于一些应用程序（如Elasticsearch）特别重要，因为它们在运行时会创建大量的内存映射区域。详细解释内存映射（MemoryMapping）内存映射是一种将文件或设备的内容映射到进程的地址空间的机制。通过内存映射，应用程序可以像访问
Ubuntu 安装并使用 Elasticsearch 风筝超冷 ubuntu elasticsearch jenkins
启动并运行Elasticsearch|Elasticsearch中文文档Elasticsearch不允许以特权用户（root）身份直接运行，您需要创建一个非root用户来运行Elasticsearch。创建新用户并设置密码：我将创建一个名为esuser的新用户。您可以根据需要更改用户名。sudoadduseresuser&&echo"esuser:nihao123"|sudochpasswdnih
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

elasticsearch分片分配和路由配置

你可能感兴趣的:(elasticsearch)