可乐大数据

Elasticsearch集群索引写入失败[FORBIDDEN/12/index read-only / allow delete (api)]处理流程

操作系统：CentOS 7.3
软件版本：elasticsearch-6.7.2

问题现象描述：

第一步、索引写入报错日志

正常将数据写入到Elasticsearch时，发现写入失败，出现如下报错

cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, slave0001.test.com, executor 2): org.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bulk operation [604/604]. Error sample (first [5] error messages):
org.elasticsearch.hadoop.rest.EsHadoopRemoteException: cluster_block_exception: blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];
{"index":{"_id":null}}
{此处为json数据}

第二步、检查Elasticsearch集群的日志

检查Elasticsearch集群的active master节点的日志，并没有发现error，但有WARN告警，显示与 flood stage disk watermark [90%] 有关。

2023-06-13T15:34:51,372 WARN [elasticsearch[node-1][management][T#2]] org.elasticsearch.cluster.routing.allocation.DiskThresholdMonitor:warnAboutDiskIfNeeded:84 - flood stage disk watermark [90%] exceeded on [TtNr4xotQZCd6dJjRI9G6g][olcmsprddb63][/data00/es-test/nodes/0] free: 49.1gb[9.9%], all indices on this node will be marked read-only

第三步、 low disk watermark [80%] 水位告警

上下文有 low disk watermark [80%] 的INFO日志信息，再次证明与disk watermark 有关联。

2023-06-13T15:34:51,372 INFO [elasticsearch[node-1][management][T#2]] org.elasticsearch.cluster.routing.allocation.DiskThresholdMonitor:warnAboutDiskIfNeeded:90 - low disk watermark [80%] exceeded on [j_72JxYYT_yYB6BoxakcJQ][olcmsprddb52][/data00/es-test/nodes/0] free: 94.7gb[19.2%], replicas will not be assigned to this node
2023-06-13T15:34:51,372 WARN [elasticsearch[node-1][management][T#2]] org.elasticsearch.cluster.routing.allocation.DiskThresholdMonitor:warnAboutDiskIfNeeded:84 - flood stage disk watermark [90%] exceeded on [TtNr4xotQZCd6dJjRI9G6g][olcmsprddb63][/data00/es-test/nodes/0] free: 49.1gb[9.9%], all indices on this node will be marked read-only
2023-06-13T15:34:51,372 INFO [elasticsearch[node-1][management][T#2]] org.elasticsearch.cluster.routing.allocation.DiskThresholdMonitor:warnAboutDiskIfNeeded:90 - low disk watermark [80%] exceeded on [XvE1mMGeSqGJlAf5xVbSPQ][olcmsprddb73][/data00/es-test/nodes/0] free: 96gb[19.5%], replicas will not be assigned to this node

第四步、检查集群cluster/settings

get /cluster/settings

随即检查了Elasticsearch集群settings设置，在这里可以看到disk.watermark.flood_stage和日志信息可以对上，设置的是90%的阀值，那就是它导致的。

{
    "persistent": {
        "cluster": {
            "routing": {
                "allocation": {
                    "cluster_concurrent_rebalance": "30",
                    "node_concurrent_recoveries": "20",
                    "disk": {
                        "watermark": {
                            "low": "80%",
                            "flood_stage": "90%",
                            "high": "90%"
                        }
                    },
                    "exclude": {
                        "_ip": ""
                    },
                    "node_initial_primaries_recoveries": "20"
                }
            },
            "blocks": {
                "read_only": "false"
            }
        },
        "indices": {
            "recovery": {
                "max_bytes_per_sec": "80mb"
            }
        }
    },
    "transient": {}
}

问题原因分析：

第一步、disk.watermark参数详细解释

为什么cluster.routing.allocation.disk.watermark.flood_stage会导致index read-only / allow delete呢？

以下是watermark相关的几个配置，我们来看看这几个配置的官网解释。详情可以参考官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/6.7/shards-allocation.html#_shard_allocation_settings

1、cluster.routing.allocation.disk.threshold_enabled

默认为true. 设置为false禁用磁盘分配决策器。

2、cluster.routing.allocation.disk.watermark.low

控制磁盘使用的低水位线。它默认为85%，这意味着 Elasticsearch 不会将分片分配给磁盘使用率超过 85% 的节点。它还可以设置为绝对字节值（如500mb），以防止 Elasticsearch 在可用空间少于指定的空间量时分配分片。此设置对新创建索引的主分片没有影响，或者特别是以前从未分配过的任何分片。

3、cluster.routing.allocation.disk.watermark.high

控制磁盘使用的高水位线。它默认为90%，这意味着 Elasticsearch 将尝试将分片从磁盘使用率超过 90% 的节点重新定位。它也可以设置为绝对字节值（类似于低水位线），以便在节点的可用空间小于指定数量时将分片重新定位。此设置会影响所有分片的分配，无论之前是否分配过。

4、cluster.routing.allocation.disk.watermark.flood_stage

控制磁盘洪水阶段水位线。index.blocks.read_only_allow_delete它默认为 95%，这意味着 Elasticsearch在每个索引上强制执行一个只读索引块 ( )，该索引在至少有一个磁盘超过泛滥阶段的节点上分配了一个或多个分片。这是防止节点耗尽磁盘空间的最后手段。一旦有足够的可用磁盘空间允许索引操作继续进行，就必须手动释放索引块。

第二步、disk.watermark.flood_stage参数分析

重点看disk.watermark.flood_stage参数就能发现问题，我这个集群阀值从默认的95%被修改为90%了。所以当磁盘使用率达到90%，就导致索引被强制置于只读模式，所以导致索引写入失败。

默认情况下，Elasticsearch 是基于可用磁盘空间的百分比设置的，因此在大磁盘上，即使您有数 GB 的可用空间，也会发生这种情况。

disk.watermark.flood_stage默认为 95%，因此在 1TB 驱动器上您至少需要 50GB 的可用空间，否则 Elasticsearch 会将其自身置于只读模式。

正确的解决方案取决于环境的实际情况，你可以根据自己的实际环境情况选择适合的方案，也可以选择多种方案组合使用。

问题解决方案：

解决方案 1：释放磁盘空间

删除一部分不需要的索引数据，或者删除path.data挂载盘下非es相关的数据（这种情况多出现数据盘混用的情况下），最低要释放超过 5% 的磁盘足空间。

DELETE 不需要的索引

或

#检查elasticsearch.yml配置文件中，找到path.data配置的挂载盘中无用的数据。（生产环境默认非es相关的目录都是无用数据。）
du -sh /data00/*
328M	/data00/es-test
800M	/data00/test

#例如test目录为无用数据，那就删掉它，用以释放磁盘空间。
cd /data00/ && rm -rf test

一旦有足够的可用磁盘，Elasticsearch 不会自动退出只读模式，您必须执行类似这样的操作来解锁索引：

PUT/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

解决方案 2：更改flood stage watermark设置

由上图可依法向我的 cluster.routing.allocation.disk.watermark.flood_stage 配置的是90%，如果需要释放5%的磁盘空间，那我可以调整到95%。不过这个值既可以设置为较低的百分比，也可以设置为磁盘的剩余空间大小。以下是更改设置的命令：

PUT _cluster/settings
{
   "persistent":{
      "cluster.routing.allocation.disk.watermark.low":"85%",
      "cluster.routing.allocation.disk.watermark.high":"90%",
      "cluster.routing.allocation.disk.watermark.flood_stage":"95%"
    }
}

或

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.disk.watermark.low": "100gb",
    "cluster.routing.allocation.disk.watermark.high": "50gb",
    "cluster.routing.allocation.disk.watermark.flood_stage": "10gb",
    "cluster.info.update.interval": "1m"
  }
}

检查迁移进度，当集群没有RELOCATING状态的分片时，就意味着迁移完成。

get /_cat/shards?v&pretty&s=state:desc

同样，执行此操作后，您必须使用命令解锁索引，之后它们不应再次进入只读模式。

PUT/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

当长期解决方案到位时，重置或重新配置disk.watermarks。这里介绍的是恢复默认值。

PUT _cluster/settings
{
  "persistent": {
    "cluster.routing.allocation.disk.watermark.low": null,
    "cluster.routing.allocation.disk.watermark.high": null,
    "cluster.routing.allocation.disk.watermark.flood_stage": null
  }
}

解决方案 3：增加服务器，扩容数据节点

按照Elasticsearch扩容方法完成扩容，扩容后的集群容量应该满足如下要求：集群磁盘总容量*80% > 实际数据所需容量。

同样，执行扩容操作后，您必须使用命令解锁索引，之后它们不应再次进入只读模式。

PUT/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

解决方案 4：物理机增加新磁盘

物理机的CUP和内存资源一般都比较重组，如果想在物理机扩容增加新磁盘，操作方法有很多。我这里介绍一种单个节点启动两个Elasticsearch实例的扩容方法。

su - es
cd /home/es/software/elasticsearch
#现在增加了一个/data01数据盘，copy一份 elasticsearch 的 config 配置文件，命名为 config2
cp -r config config2
#1、修改config2目录下elasticsearch.yml文件中path.data的数据盘从/data00修改为/data01
#2、修改config2目录下elasticsearch.yml文件中node.name的node-1为node-10。(和集群不重复的值)
#3、修改config2目录下elasticsearch.yml文件中path.logs的logs为logs2
#4、#http.port: 9200 			修改为	http.port: 9201
#5、#transport.tcp.port: 9300 	修改为	transport.tcp.port: 9301

#启动第二实例
cd /home/es/software/elasticsearch/bin
./elasticsearch -d -p /home/es/software/config2/config2.pid

同样，执行扩容操作后，您必须使用命令解锁索引，之后它们不应再次进入只读模式。

PUT/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

解决方案 5：虚拟机(或物理机)增加新磁盘

虚拟机一般CUP和内存资源都比较紧张，所以不方便启动双实例，所以只能在中增加一个磁盘。但是需要重启es生效。

su - es
cd /home/es/software/elasticsearch/config
#在elasticsearch.yml文件path.data中增加一个磁盘，使用逗号分隔。
path.data: /data00/es-test	修改为		path.data: /data00/es-test,/data01/es-test

最后重启Elasticsearch进程服务，使/data01相关的配置生效。

同样，执行扩容操作后，您必须使用命令解锁索引，之后它们不应再次进入只读模式。

PUT/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

遗留问题处理方法1：

这种方法有一个弊端，就是es在节点内部没有办法自动均衡。可以使用迁移的方法，将node-1节点数据先迁移走，再迁移回来。手动实现节点内部磁盘均衡。

#1、开始迁移数据
PUT /_cluster/settings  
{
  "persistent" :{
      "cluster.routing.allocation.exclude._ip" : "192.168.168.1"
   },
     "transient" :{
      "cluster.routing.allocation.exclude._ip" : "192.168.168.1"
   }
}

#2、检查数据迁移进度，RELOCATING表示正在迁移中。
get /_cat/shards?v&pretty&s=state:desc
index      shard prirep state           docs    store ip            node
testIndex  3     p      RELOCATING    214311  107.9mb 192.168.168.1  node-1 -> 192.168.168.3 XcE1mMGeSQGJlXf5xVbSPM node-3

#3、如果迁移速度比较慢，可以调整传输速度和线程数
#每秒传输速度，默认40Mb。如果节点内存16G-32G的选择125mb，大于32G的选择250mb
PUT /_cluster/settings  
{
  "persistent" :{
      "indices.recovery.max_bytes_per_sec" : "125mb"
   },
     "transient" :{
      "indices.recovery.max_bytes_per_sec" : "250mb"
   }
}

#集群内同时启动的数据任务个数，默认是2个
PUT /_cluster/settings  
{
  "persistent": {
    "cluster.routing.allocation.cluster_concurrent_rebalance": "10"
  },
  "transient": {
    "cluster.routing.allocation.cluster_concurrent_rebalance": "10"
  }
}

#添加或删除节点及负载均衡时并发恢复的线程个数，默认4个
PUT /_cluster/settings  
{
  "persistent": {
    "cluster.routing.allocation.node_concurrent_recoveries": "5"
  },
  "transient": {
    "cluster.routing.allocation.node_concurrent_recoveries": "5"
  }
}

#初始化数据恢复时，并发恢复线程的个数，默认4个
PUT /_cluster/settings 
{
  "persistent": {
    "cluster.routing.allocation.node_initial_primaries_recoveries": "5"
  },
  "transient": {
    "cluster.routing.allocation.node_initial_primaries_recoveries": "5"
  }
}

#4、恢复设置，数据会自动迁移回来。
PUT /_cluster/settings  
{
  "persistent" :{
      "cluster.routing.allocation.exclude._ip" : ""
   },
     "transient" :{
      "cluster.routing.allocation.exclude._ip" : ""
   }
}

遗留问题处理方法2：

如果你的disk.watermark相关的配置用的是默认值，而且短时间内因为数据倾斜导致的集群性能要求不高，而且新增数据增长不快，那也可以不用做任何操作。

当单个磁盘水位达到90%之后，数据也会自动触发迁移至其他节点。但是如果达到95%，会有再次触发索引写入失败[FORBIDDEN/12/index read-only / allow delete (api)]的风险。

解决方案6：磁盘容量扩容

磁盘空间不足，我们也可以从500G扩容到1T。这种方法一般只适合虚拟机，不适合物理机。扩容前建议将扩容节点数据先迁移走，这样防止数据丢失。

#1、开始迁移数据
PUT /_cluster/settings  
{
  "persistent" :{
      "cluster.routing.allocation.exclude._ip" : "192.168.168.1"
   },
     "transient" :{
      "cluster.routing.allocation.exclude._ip" : "192.168.168.1"
   }
}

#2、检查数据迁移进度，RELOCATING表示正在迁移中。
get /_cat/shards?v&pretty&s=state:desc
index      shard prirep state           docs    store ip            node
testIndex  3     p      RELOCATING    214311  107.9mb 192.168.168.1  node-1 -> 192.168.168.3 XcE1mMGeSQGJlXf5xVbSPM node-3


#3、数据排空后，重启Elasticsearch进程

#4、恢复设置，数据会自动迁移回来。
PUT /_cluster/settings  
{
  "persistent" :{
      "cluster.routing.allocation.exclude._ip" : ""
   },
     "transient" :{
      "cluster.routing.allocation.exclude._ip" : ""
   }
}

这个方案并不好，因为当我们出现告警的时候，就已经出现空间不足的告警了。一般这种方法只能配合删索引或有临时中转空间时使用。

利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
Springboot --- 整合spring-data-jpa和spring-data-elasticsearch 百世经纶『一页書』 Springboot Java springboot
Springboot---整合spring-data-jpa和spring-data-elasticsearch1.依赖2.配置文件3.代码部分3.1Entity3.2Repository3.3Config3.4Service3.5启动类3.6Test3.7项目结构SpringBoot:整合Ldap.SpringBoot:整合SpringDataJPA.SpringBoot:整合Elasticse
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
Seo新手入门，网络编辑如何写好文章（写文章技巧）魔仙堡捏泥巴 SEO
Seo新手入门，网络编辑如何写好文章（写文章技巧）概述刚入SEO门的小白在进行网站编辑的时候一定很头痛，SEO的标题怎么写？文章关键词怎么部署？注意要点都有什么？这一系列的问题，今天就让小编我来为您解答吧，文章技巧得这样写！SEO标题的重要性SEO标题就是网页的标题title在浏览器最左边最顶部显示的地方，他也是被搜索引擎当做是确定当前网页主体最主要的参数之一。为了吸引蜘蛛爬行，你的网站的标题是需
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Elasticsearch 根据字段值去重前的个数过滤数据（qbit）
前言本文对Elasticsearch7.17适用假定有个ip类型的字段client_ip，需要根据字段值的个数过滤数据在query中使用script只能通过doc['client_ip']获取到去重后的个数研究发现使用runtime_mappings可以动态新建字段获取到不去重的个数示例创建索引PUTmy_index{"mappings":{"dynamic":false,"properties"
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
专注搜索引擎优化的专业模板平台 wodrpress资源分享独立站搜索引擎 moban html
SEO模板seomoban.com定位：致力于提供SEO友好型网站模板，核心目标是帮助用户提升网站在搜索引擎中的排名和在线可见性。核心优势与技术特性：深度SEO优化所有模板均经SEO专家审核，确保代码结构简洁规范，符合搜索引擎爬虫索引标准，从底层提升收录效率。集成元标签编辑器、关键词优化建议等工具，简化SEO操作流程。高性能与响应式设计模板加载速度经过专项优化，符合Google等搜索引擎的页面体验
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
python教学爬虫入门早柚不用工作了 python
Python爬虫入门教程：从零基础到抓取数据一、什么是网络爬虫？网络爬虫（WebCrawler），也称为网络蜘蛛（WebSpider），是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。它能够模拟人类在浏览器中的操作，自动访问网页，提取所需的数据，广泛应用于数据采集、搜索引擎优化、市场调研等领域。但在编写爬虫时，务必遵守法律法规和网站的robots.txt协议，避免过度抓取对网站造成负担，同
蜂鸟云平台大更新：地图空间定价重塑与功能全面升级蜂鸟视图fengmap 信息可视化蜂鸟云地图编辑器地图绘制工具室内外地图一体化智慧园区蜂鸟视图
1.引言随着云计算、大数据以及人工智能技术的快速发展，企业对云平台的需求日益增长。蜂鸟云平台作为一款创新性的地图服务平台，已逐渐成为众多企业、政府及科研机构的核心依赖。为了更好地满足用户需求，提高平台的市场竞争力，蜂鸟云平台定期进行功能更新与优化。2024年9月21日，蜂鸟云平台将在晚上20:00至24:00进行一轮重要的系统更新。本次更新的核心内容包括地图空间的重新定价与功能优化，涉及制图、微程
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
Elasticsearch 索引文档的流程 jiedaodezhuti elasticsearch 大数据搜索引擎
Elasticsearch索引文档的流程是一个分布式、多阶段的过程，涉及客户端请求、路由、主副本同步及持久化等步骤，具体流程如下：一、客户端请求与路由1.1文档接收与路由计算‌客户端通过RESTAPI发送文档写入请求，需指定索引名、文档ID（可选）及文档内容。Elasticsearch根据文档ID（或自定义routing值）哈希计算目标主分片位置。请求被转发到主分片所在的节点（协调节点或直接定位主
Elasticsearch连接 java.net.ConnectException: Connection refused: getsockopt swany elasticsearch java .net
使用springboot连接Elasticsearch创建全文索引，总是报连接不上的问题，报错如下：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'esContentService':Unsatisfieddependencyexpressedthroughfiel
大数据领域数据工程的消息中间件选型大数据洞察大数据与AI人工智能大数据 ai
大数据领域数据工程的消息中间件选型关键词：消息中间件、数据工程、大数据处理、选型标准、分布式系统、实时数据流、可靠性保障摘要：在大数据领域的数据工程实践中，消息中间件是构建高可靠、高可扩展数据管道的核心组件。本文从技术架构、功能需求、应用场景等维度，系统解析消息中间件选型的关键要素。通过对比Kafka、Pulsar、RabbitMQ、RocketMQ等主流中间件的技术特性，结合数学模型分析吞吐量、
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
深入解析前端 Meta 标签：HTML 的隐形守护者与功能大师斯~内克 html5 前端 html
在构建现代网页时，我们常常关注炫目的视觉效果、复杂的交互逻辑或强大的框架，却容易忽略那些深藏于之中、看似不起眼的标签。这些标签如同网页的隐形守护者，无声地承担着定义文档元数据、指导浏览器行为、优化搜索引擎可见性、提升用户体验等关键任务。本文将深入探索meta标签的世界，揭示其强大的功能和最佳实践。一、Meta标签基础：定义与核心作用定义：标签位于HTML文档的部分，用于提供关于HTML文档的元数据
微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术，可在多领域高效提升文本处理效率 MicroTech2025 量子计算哈希算法
随着数据规模的不断扩大，尤其是在大数据和人工智能驱动的应用中，这些经典算法的线性复杂度逐渐成为瓶颈。面对数十亿级别的文本数据，线性时间的算法仍然难以满足实时性的要求。此外，经典算法在处理无序或随机文本时，性能往往会显著下降，进一步限制了其在特定场景中的适用性。量子计算是一种基于量子力学原理的新型计算范式。它与经典计算的根本区别在于量子叠加和量子纠缠的特性，使得量子计算能够并行处理大量状态，从而在某
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
WIND金融客户端Python接口文档：Python环境下的金融大数据利器邴韵芯
WIND金融客户端Python接口文档：Python环境下的金融大数据利器【下载地址】WIND金融客户端Python接口文档WINDPY是WIND金融客户端为Python开发者提供的强大接口，支持在Python环境中便捷访问WIND金融数据库。它提供了丰富的函数和命令，涵盖历史数据、实时行情、交易操作等多种功能，适用于量化交易、数据分析等场景。无论是获取股票、基金、债券等金融产品的历史序列、分钟数
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

Elasticsearch集群索引写入失败[FORBIDDEN/12/index read-only / allow delete (api)]处理流程

Elasticsearch集群索引写入失败[FORBIDDEN/12/index read-only / allow delete (api)]处理流程

问题现象描述：

第一步、索引写入报错日志

第二步、检查Elasticsearch集群的日志

第三步、 low disk watermark [80%] 水位告警

第四步、检查集群cluster/settings

问题原因分析：

第一步、disk.watermark参数详细解释

第二步、disk.watermark.flood_stage参数分析

问题解决方案：

解决方案 1：释放磁盘空间

解决方案 2：更改flood stage watermark设置

解决方案 3：增加服务器，扩容数据节点

解决方案 4：物理机增加新磁盘

解决方案 5：虚拟机(或物理机)增加新磁盘

遗留问题处理方法1：

遗留问题处理方法2：

解决方案6：磁盘容量扩容

你可能感兴趣的:(elasticsearch,大数据,搜索引擎)