Elastic 中国社区官方博客

Elasticsearch：升级索引以使用 ELSER 最新的模型

在此 notebook 中，我们将看到有关如何使用 Reindex API 将索引升级到 ELSER 模型 .elser_model_2 的示例。

注意：或者，你也可以通过 update_by_query 来更新索引以使用 ELSER。在本笔记本中，我们将看到使用 Reindex API 的示例。

我们将在本笔记本中看到的场景：

将未生成 text_expansion 字段的索引迁移到 ELSER 模型 .elser_model_2
使用 .elser_model_1 升级现有索引以使用 .elser_model_2 模型
升级使用不同模型的索引以使用 ELSER

在下面的颜色中，我们将使用 Elastic Stack 8.11 来进行展示。

安装

如果你还没有安装好自己的 Elasticsearch 及 Kibana，请参考文章：

安装 Elasticsearch 及 Kibana

如果你还没有安装好自己的 Elasticsearch 及 Kibana，那么请参考一下的文章来进行安装：

如何在 Linux，MacOS 及 Windows 上进行安装 Elasticsearch
Kibana：如何在 Linux，MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候，请选择 Elastic Stack 8.x 进行安装。在安装的时候，我们可以看到如下的安装信息：

为了能够上传向量模型，我们必须订阅白金版或试用。

安装 ELSER 模型

如果你还没有安装好 ELSER 模型，请参考文章 “Elasticsearch：部署 ELSER - Elastic Learned Sparse EncoderR” 来进行安装。在这里就不再累述了。请注意安装好的 ELSER 模型的 ID 为 .elser_model_2 而不是之前那篇文章中的 .elser_model_1。

Python

我们需要安装相应的 Elasticsearch 包：

$ pwd
/Users/liuxg/python/elser
$ pip3 install elasticsearch -qU
$ pip3 list | grep elasticseach
elasticsearch             8.11.1
rag-elasticsearch         0.0.1        /Users/liuxg/python/rag-elasticsearch/my-app/packages/rag-elasticsearch

环境变量

在启动 Jupyter 之前，我们设置如下的环境变量：

export ES_USER="elastic"
export ES_PASSWORD="yarOjyX5CLqTsKVE3v*d"
export ES_ENDPOINT="localhost"

拷贝 Elasticsearch 证书

我们把 Elasticsearch 的证书拷贝到当前的目录下：

$ pwd
/Users/liuxg/python/elser
$ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
$ ls
 find_books_about_christmas_without_searching_for_christmas.ipynb
Chatbot with LangChain conversational chain and OpenAI.ipynb
ElasticKnnSearch.ipynb
ElasticVectorSearch.ipynb
ElasticsearchStore.ipynb
Mental Health FAQ.ipynb
Multilingual semantic search.ipynb
NLP text search using hugging face transformer model.ipynb
Question Answering with Langchain and OpenAI.ipynb
RAG-langchain-elasticsearch.ipynb
Semantic search - ELSER.ipynb
Semantic search quick start.ipynb
book_summaries_1000_chunked.json
books.json
data.json
http_ca.crt
lib
sample_data.json
upgrading-index-to-use-elser.ipynb
vector_search_implementation_guide_api.ipynb
workplace-docs.json

在上面，我们把 Elasticsearch 的证书 http_ca.crt 拷贝到当前的目录下。

运行应用

使用客户端连接 Elasticsearch

from elasticsearch import Elasticsearch
import os

elastic_user=os.getenv('ES_USER')
elastic_password=os.getenv('ES_PASSWORD')
elastic_endpoint=os.getenv("ES_ENDPOINT")
 
url = f"https://{elastic_user}:{elastic_password}@{elastic_endpoint}:9200"
es = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True)
 
print(es.info())

从上面的输出中，我们可以看到与 Elasticsearch 的连接是成功的。

案例一

在本例中，我们将了解如何升级已经配置了摄取管道的索引，以使用 ELSER 模型 elser_model_2

使用 lowercase 创建摄取管道

我们将创建一个简单的管道来将标题字段值转换为小写，并在我们的索引上使用此摄取管道。

es.ingest.put_pipeline(
    id="ingest-pipeline-lowercase", 
    description="Ingest pipeline to change title to lowercase",
    processors=[
    {
      "lowercase": {
        "field": "title"
      }
    }
  ]
)

创建索引 - 带有映射的 movies

接下来，我们将使用我们在上一步中创建的管道 ingest-pipeline-lowercase 创建一个索引。

es.indices.delete(index="movies",ignore_unavailable=True)
es.indices.create(
  index="movies",
  settings={
      "index": {
          "number_of_shards": 1,
          "number_of_replicas": 1,
          "default_pipeline": "ingest-pipeline-lowercase"
      }
  },
  mappings={
    "properties": {
      "plot": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
    }
  }
)

摄入文档

我们现在准备将 12 部电影的示例数据集插入到我们的电影索引中。我们把如下的数据保存到一个叫做 movies.json 的文件中。

movies.json

[
    {
    "title": "Pulp Fiction",
    "runtime": "154",
    "plot": "The lives of two mob hitmen, a boxer, a gangster and his wife, and a pair of diner bandits intertwine in four tales of violence and redemption.",
    "keyScene": "John Travolta is forced to inject adrenaline directly into Uma Thurman's heart after she overdoses on heroin.",
    "genre": "Crime, Drama",
    "released": "1994"
    },
    {
    "title": "The Dark Knight",
    "runtime": "152",
    "plot": "When the menace known as the Joker wreaks havoc and chaos on the people of Gotham, Batman must accept one of the greatest psychological and physical tests of his ability to fight injustice.",
    "keyScene": "Batman angrily responds 'I’m Batman' when asked who he is by Falcone.",
    "genre": "Action, Crime, Drama, Thriller",
    "released": "2008"
    },
    {
    "title": "Fight Club",
    "runtime": "139",
    "plot": "An insomniac office worker and a devil-may-care soapmaker form an underground fight club that evolves into something much, much more.",
    "keyScene": "Brad Pitt explains the rules of Fight Club to Edward Norton. The first rule of Fight Club is: You do not talk about Fight Club. The second rule of Fight Club is: You do not talk about Fight Club.",
    "genre": "Drama",
    "released": "1999"
    },
    {
    "title": "Inception",
    "runtime": "148",
    "plot": "A thief who steals corporate secrets through the use of dream-sharing technology is given the inverse task of planting an idea into thed of a C.E.O.",
    "keyScene": "Leonardo DiCaprio explains the concept of inception to Ellen Page by using a child's spinning top.",
    "genre": "Action, Adventure, Sci-Fi, Thriller",
    "released": "2010"
    },
    {
    "title": "The Matrix",
    "runtime": "136",
    "plot": "A computer hacker learns from mysterious rebels about the true nature of his reality and his role in the war against its controllers.",
    "keyScene": "Red pill or blue pill? Morpheus offers Neo a choice between the red pill, which will allow him to learn the truth about the Matrix, or the blue pill, which will return him to his former life.",
    "genre": "Action, Sci-Fi",
    "released": "1999"
    },
    {
    "title": "The Shawshank Redemption",
    "runtime": "142",
    "plot": "Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.",
    "keyScene": "Andy Dufresne escapes from Shawshank prison by crawling through a sewer pipe.",
    "genre": "Drama",
    "released": "1994"
    },
    {
    "title": "Goodfellas",
    "runtime": "146",
    "plot": "The story of Henry Hill and his life in the mob, covering his relationship with his wife Karen Hill and his mob partners Jimmy Conway and Tommy DeVito in the Italian-American crime syndicate.",
    "keyScene": "Joe Pesci's character Tommy DeVito shoots young Spider in the foot for not getting him a drink.",
    "genre": "Biography, Crime, Drama",
    "released": "1990"
    },
    {
    "title": "Se7en",
    "runtime": "127",
    "plot": "Two detectives, a rookie and a veteran, hunt a serial killer who uses the seven deadly sins as his motives.",
    "keyScene": "Brad Pitt's character David Mills shoots John Doe after he reveals that he murdered Mills' wife.",
    "genre": "Crime, Drama, Mystery, Thriller",
    "released": "1995"
    },
    {
    "title": "The Silence of the Lambs",
    "runtime": "118",
    "plot": "A young F.B.I. cadet must receive the help of an incarcerated and manipulative cannibal killer to help catch another serial killer, a madman who skins his victims.",
    "keyScene": "Hannibal Lecter explains to Clarice Starling that he ate a census taker's liver with some fava beans and a nice Chianti.",
    "genre": "Crime, Drama, Thriller",
    "released": "1991"
    },
    {
    "title": "The Godfather",
    "runtime": "175",
    "plot": "An organized crime dynasty's aging patriarch transfers control of his clandestine empire to his reluctant son.",
    "keyScene": "James Caan's character Sonny Corleone is shot to death at a toll booth by a number of machine gun toting enemies.",
    "genre": "Crime, Drama",
    "released": "1972"
    },
    {
    "title": "The Departed",
    "runtime": "151",
    "plot": "An undercover cop and a mole in the police attempt to identify each other while infiltrating an Irish gang in South Boston.",
    "keyScene": "Leonardo DiCaprio's character Billy Costigan is shot to death by Matt Damon's character Colin Sullivan.",
    "genre": "Crime, Drama, Thriller",
    "released": "2006"
    },
    {
    "title": "The Usual Suspects",
    "runtime": "106",
    "plot": "A sole survivor tells of the twisty events leading up to a horrific gun battle on a boat, which began when five criminals met at a seemingly random police lineup.",
    "keyScene": "Kevin Spacey's character Verbal Kint is revealed to be the mastermind behind the crime, when his limp disappears as he walks away from the police station.",
    "genre": "Crime, Mystery, Thriller",
    "released": "1995"
    }
]

$ pwd
/Users/liuxg/python/elser
$ ls movies.json 
movies.json

我们接下来运行如下的代码：

import json
from elasticsearch import helpers
import time
 
with open('movies.json') as f:
   data_json = json.load(f)

# Prepare the documents to be indexed
documents = []
for doc in data_json:
    documents.append({
        "_index": "movies",
        "_source": doc,
    })

# Use helpers.bulk to index
helpers.bulk(es, documents)

print("Done indexing documents into `movies` index!")
time.sleep(5)

我们可以在 Kibana 中查看到刚才摄入的 12 个文档：

更新 movies 索引使用 ELSER 模型

我们已准备好使用 ELSER 模型 .elser_model_2 将 movies 重新索引到新索引。第一步，我们必须创建新的摄取管道和索引才能使用 ELSER 模型。

创建一个使用 ELSER 模型的新的 ingest pipeline

让我们使用 ELSER 模型 .elser_model_2 创建一个新的摄取管道。

es.ingest.put_pipeline(
    id="elser-ingest-pipeline", 
    description="Ingest pipeline for ELSER",
    processors=[
    {
      "inference": {
        "model_id": ".elser_model_2",
        "input_output": [
            {
              "input_field": "plot",
              "output_field": "plot_embedding"
            }
          ]
      }
    }
  ]
)

使用映射创建一个新的索引

接下来，使用 ELSER 所需的映射创建索引。

es.indices.delete(index="elser-movies",ignore_unavailable=True)
es.indices.create(
  index="elser-movies",
  mappings={
    "properties": {
      "plot": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "plot_embedding": { 
        "type": "sparse_vector" 
      }
    }
  }
)

注意：

plot_embedding 是包含生成的类型为稀疏向量的标记的字段的名称

plot 是创建稀疏向量的字段的名称。

使用更新的 ingest pipeline 来进行 reindex

借助 Reindex API，我们可以将数据从旧索引电影复制到新索引 elser-movies，并将摄取管道设置为 elser-ingest-pipeline 。成功后，索引 elser-movies 会在你针对 ELSER 推理的 text_expansion 术语上创建标记。

es.reindex(source={
    "index": "movies"
  }, dest={
    "index": "elser-movies",
    "pipeline":  "elser-ingest-pipeline"
  })
time.sleep(7)

重新索引完成后，检查索引 elser-movies 中的任何文档，并注意到该文档有一个附加字段 plot_embedding，其中包含我们将在 text_expansion 查询中使用的术语。

使用 ELSER 来查询文档

让我们尝试使用 ELSER 模型 .elser_model_2 对索引进行语义搜索：

response = es.search(
    index='elser-movies', 
    size=3,
    query={
        "text_expansion": {
            "plot_embedding": {
                "model_id":".elser_model_2",
                "model_text":"investigation"
            }
        }
    }
)

for hit in response['hits']['hits']:
    doc_id = hit['_id']
    score = hit['_score']
    title = hit['_source']['title']
    plot = hit['_source']['plot']
    print(f"Score: {score}\nTitle: {title}\nPlot: {plot}\n")

案例二：将 ELSER 模型的索引升级到 .elser_model_2

如果你已有 ELSER 模型 .elser_model_1 的索引，并且想要升级到 .elser_model_2，则可以结合使用 Reindex API 和摄取管道来使用 ELSER .elser_model_2 模型。

注意：在开始之前，请确保你使用的是 Elasticsearch 8.11 版本并且已部署 ELSER 模型 .elser_model_2。

创建一个新的 ingest pipeline

我们将使用 .elser_model_2 创建一个管道，以便能够重新索引。

es.ingest.put_pipeline(
    id="elser-pipeline-upgrade-demo", 
    description="Ingest pipeline for ELSER upgrade demo",
    processors=[
    {
      "inference": {
        "model_id": ".elser_model_2",
        "input_output": [
            {
              "input_field": "plot",
              "output_field": "plot_embedding"
            }
          ]
      }
    }
  ]
)

创建一个带有 mapping 的新索引

我们将创建一个新索引，其中包含支持 ELSER 所需的映射：

es.indices.delete(index="elser-upgrade-index-demo", ignore_unavailable=True)
es.indices.create(
  index="elser-upgrade-index-demo",
  mappings={
    "properties": {
      "plot": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "plot_embedding": {
        "type": "sparse_vector"
      },
    }
  }
)

使用 reindex API

我们将使用 Reindex API 将数据从旧索引移动到新索引 elser-upgrade-index-demo。我们将从旧索引中排除 target 字段，并在重新索引时使用 .elser_model_2 在字段 plot_embedding 中生成新 token。

注意：请确保将 my-index 替换为你要升级的索引名称，并将字段 my-tokens-field 替换为你之前生成的 token 的字段名称。

client.reindex(source={
    "index": "my-index", # replace with your index name
    "_source": {
      "excludes": ["my-tokens-field"]  # replace with the field-name from your index, that has previously generated tokens
    }}, 
    dest={
    "index": "elser-upgrade-index-demo",
    "pipeline":  "elser-pipeline-upgrade-demo"
  })
time.sleep(5)

为了演示的目的。我们使用上一步中得到的 elser-movies 来进行练习。我们假定它是有 .elser_model_1 所生成的（尽管它是由 .elser_model_2 模型所生成的）。我们使用如下的代码：

es.reindex(source={
    "index": "elser-movies", # replace with your index name
    "_source": {
      "excludes": ["plot_embedding"]  # replace with the field-name from your index, that has previously generated tokens
    }}, 
    dest={
    "index": "elser-upgrade-index-demo",
    "pipeline":  "elser-pipeline-upgrade-demo"
  })
time.sleep(5)

查询你的数据

重新索引完成后，你就可以查询数据并执行语义搜索：

response = es.search(
    index='elser-upgrade-index-demo', 
    size=3,
    query={
        "text_expansion": {
            "plot_embedding": {
                "model_id":".elser_model_2",
                "model_text":"child toy"
            }
        }
    }
)

for hit in response['hits']['hits']:
    doc_id = hit['_id']
    score = hit['_score']
    title = hit['_source']['title']
    plot = hit['_source']['plot']
    print(f"Score: {score}\nTitle: {title}\nPlot: {plot}\n")

案例三：将不同模型的索引升级到 ELSER

现在我们将了解如何使用不同的模型移动已经生成嵌入的索引。

让我们考虑索引 - blogs，并使用 NLP 模型 Sentence-transformers__all-minilm-l6-v2 生成 text_embedding。如果你想了解更多如何将 NLP 模型加载到索引的信息，请按照我们的笔记本中的步骤 NLP text search using hugging face transformer model.ipynb

请遵循我们之前执行的类似过程：

使用 ELSER 模型 .elser_model_2 创建摄取管道
使用我们在上一步中创建的管道创建带有映射的索引。
重新索引，从 blogs 索引中排除 embedding 的字段

在开始之前，让我们先看一下我们的索引博客并查看映射:

es.indices.get(index="blogs")

注意字段 text_embedding，我们将在新索引中排除 (exclude) 该字段，并根据博客索引中的字段 title 生成新映射

创建 ingest pipeline

接下来，我们将使用 ELSER 模型 .elser_model_2 创建管道

client.ingest.put_pipeline(
    id="elser-pipeline-blogs", 
    description="Ingest pipeline for ELSER upgrade",
    processors=[
    {
      "inference": {
        "model_id": ".elser_model_2",
        "input_output": [
          {
            "input_field": "title",
            "output_field": "title_embedding"
          }
        ]
      }
    }
  ]
)

创建带有 mappings 的索引

让我们创建一个带有映射的索引 elser-blogs

es.indices.delete(index="elser-blogs", ignore_unavailable=True)
es.indices.create(
  index="elser-blogs",
  mappings={
    "properties": {
      "title": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "title_embedding": {
        "type": "sparse_vector"
      },
    }
  }
)

Reindex API

我们将使用 Reindex API 复制数据并生成 text_expansion 嵌入到我们的新索引 elser-blogs 中。

es.reindex(source={
    "index": "blogs",
    "_source": {
      "excludes": ["text_embedding"]
    }
  }, dest={
    "index": "elser-blogs",
    "pipeline":  "elser-pipeline-blogs"
  })
time.sleep(5)

查询你的数据

成功！现在我们可以在索引 elser-blogs 上查询数据。

response = es.search(
    index='elser-blogs', 
    size=3,
    query={
        "text_expansion": {
            "title_embedding": {
                "model_id":".elser_model_2",
                "model_text":"Track network connections"
            }
        }
    }
)

for hit in response['hits']['hits']:
    doc_id = hit['_id']
    score = hit['_score']
    title = hit['_source']['title']
    print(f"Score: {score}\nTitle: {title}")

整个 notebook 可以在地址进行下载。

高效比较两个list中不同的元素 tanghuan0827 java javaapi
第四种方法，将其中一个list转为map,并通过containsKey()方法比较，用在单元测试，读取dbf文件到redis队列，测试redis和dbf的是否相同packagecom.test;importjava.util.ArrayList;importjava.util.HashMap;importjava.util.List;publicclassTest{publicstaticvoid
Vue 防抖节流函数与指令 qq_36193912 Vue vue.js javascript ecmascript
直接上代码：/***防抖*@param{*}func*@param{*}wait*@returns*/functiondebounce(func,wait=300){lettimeout;returnfunction(...args){constcontext=this;clearTimeout(timeout);timeout=setTimeout(()=>{func.apply(context
uni-app 自定义平台如何进行 static 目录的条件编译前端梦工厂+ uni-app 前端开发 uni-app 前端
一.自定义平台如何进行static目录的条件编译关于如何自定平台，参考之前文章：uni-app玩转条件编译：自定义平台的条件编译实战详解https://blog.csdn.net/qq_24956515/article/details/143951206由于官方不支持创建自定义平台下的static目录，例如以下方式，mp-weixin-custom会被认为是一个普通文件夹，将会在所有平台被打包进去
c# sugersql 获取子表数据排序海天胜景 c#开发语言
在C#中使用SugarORM（一个流行的.NETORM框架）获取子表数据并进行排序，可以通过以下几种方式实现：1.使用HasMany或HasOne配置首先，确保你在配置实体时已经正确设置了HasMany或HasOne关系。例如，假设你有一个Order实体和一个OrderDetail实体，其中Order有一个到OrderDetail的HasMany关系。publicclassOrder{public
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
近百万奖金！2024 Web3.0 创新大赛重磅来袭！ DataFountain数据科学 web3 数据竞赛大数据人工智能
10月30日，中国互联网协会与香港Web3.0协会共同组织举办的2024Web3.0创新大赛在上海举行启动会，宣布大赛正式在DataFountain竞赛平台（简称DF平台，http://www.datafountain.cn）启动上线。大赛面向社会各界征集参赛团队，不限年龄、国籍，高校、科研院所、企业人员均可参赛！两大赛区，六大赛道，近百万奖金，你不来吗：https://www.datafount
使用Chaindesk进行简单高效的文档检索 2501_92325368 langchain
##技术背景介绍Chaindesk是一个开源的文档检索平台，它帮助将个人数据与大型语言模型结合起来，实现高效的信息搜索和数据分析。Chaindesk的核心功能是通过创建数据存储库(datastore)并与大型语言模型进行交互，以提供快捷准确的文档检索能力。##核心原理解析Chaindesk通过一种称为Retriever的组件实现数据检索。Retriever可以与不同的数据存储库进行交互，拉取相关文
前端base64遇到的坑：window.btoa中文报错的修复方案前端
问题是这样的：同事在使用的过程中发现一个问题：点击确定按钮后，有个报错提示。如下截图所示：报错文本是：invalidcharactererrorfailedtoexecutebtoaonwindowthestringtobeencodedcontainscharactersoutsideofthelatin1range详情：前端base64遇到的坑：window.btoa中文报错的修复方案
2025：OpenAI的“七十二变”？ wuhanwhite 人工智能语音识别 openai
朋友们，准备好迎接AI的狂欢了吗？是不是跟我一样，每天醒来的第一件事就是看看AI领域又有什么新动向？尤其是那个名字如雷贯耳的OpenAI，简直就是AI界的弄潮儿，一举一动都牵动着我们这些“AI发烧友”的心。最近，OpenAI的掌门人SamAltman在推特上小小地“剧透”了一下2025年的AI图景，这可炸开了锅！今天，咱们就来好好聊聊，2025年，OpenAI会给我们带来哪些惊喜（或者说“惊吓”）
从文心开源谈起，论大模型发展新生态 CSDN资讯开源
6月30日，百度正式宣布开源ERNIE4.5即文心4.5系列模型，覆盖47B和3B激活参数的MoE（混合专家）模型，以及0.3B参数的稠密模型，并实现了预训练权重+推理代码的完全开源。文心大模型4.5系列开源模型国内下载地址：https://ai.gitcode.com/theme/1939325484087291906百度成为继DeepSeek之后又一重磅国产大模型开源。这不仅是数量的堆叠，更标
派拉软件重磅推出AI网关，破解大模型时代企业AI流量管理难题！派拉软件人工智能身份与访问控制安全安全 api AI网关
从ChatGPT到DeepSeek、Sora......AI技术正以惊人的速度渗透到企业和员工的各个办公与业务场景。然而，随着AI模型调用量的激增，企业逐渐面临多模型管理混乱、数据安全风险、成本失控等问题。如何高效、安全地驾驭AI流量？答案正在AI网关。一、AI网关是什么？为何而生？早在2023年，Gartner就预测在2026年，超80%的企业将使用生成式AI（GenAI）应用程序编程接口（AP
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析 DeepLink_01 开源项目分享 Ai 分布式 github DeepEP 开源项目 GPU加速 MoE/EP架构
随着大模型和稀疏激活模型（如MoE/EP架构）的广泛应用，分布式all-to-all通信成为训练和推理过程中的核心瓶颈。DeepSeek.ai推出的DeepEP，专为MoE/EP通信优化，实现了GPU原生高吞吐、低延迟通信，极大释放了底层硬件潜力。目录背景与设计动机DeepEP核心特性概览环境准备与依赖安装编译与部署全过程DeepEP核心API解析入门示例与使用流程实战案例分享训练加速案例（Tra
【加密】对称加密DES和非对称加密AES、数字签名 bdview 算法区块链密码学 openssl java
目录对称加密1.1定义1.2优缺点1.3常用对称加密算法非对称加密(AsymmetricCryptography)非对称加密(现代加密算法)2.1定义数字签名非常好的文章：《三分钟了解对称加密和非对称加密是如何工作的》https://zhuanlan.zhihu.com/p/108627377主要加密算法有哪些：https://blog.csdn.net/baidu_22254181/articl
elasticsearch 9200登录接口 leijmdas elasticsearch
嗯，关于Elasticsearch通过9200端口的登录接口，本质是启用安全认证后对HTTP请求的身份验证机制。以下是核心要点及操作指南：一、认证方式基础认证（用户名+密码）访问http://localhost:9200时会弹出登录框，需输入用户名和密码。默认超级用户：elastic，首次安装后密码需通过命令生成：./bin/elasticsearch-reset-password-uelasti
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
Go语言利用TPL完成代码生成器——struct模型学历真的很重要 golang 后端 go 开发语言
一、TPL文件在Go语言中的概念TPL文件通常指模板文件（TemplateFile），在Go语言中主要用于HTML或其他文本的模板化处理。Go标准库提供了text/template和html/template两个包来支持模板功能。1.使用text/template处理TPL文件text/template适用于普通文本模板的生成。以下是一个简单的例子：packagemainimport("os""t
php7 取余,PHP7中对大数求余报错Uncaught DivisionByZeroError: Modulo by zero 奶油冰糖葫芦 php7 取余
一、问题描述今天在使用PHP中的求余的时候，发现了一个“很怪异的事”，在PHP中执行如下代码echo2%pow(2,32);既然报错：PHPFatalerror:UncaughtDivisionByZeroError:ModulobyzeroinCommandlinecode:1Stacktrace:#0{main}throwninCommandlinecodeonline1Fatalerror:
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
Ai工具分享(2):Vscode+Cline无限免费的使用教程
大家好，我是程序员寒山。今天给大家分享一个最新的免费使用的Ai插件Cline的方法，之前也给大家分享过一些免费的方案，但是这些都是随时在变化，之前推荐的很多都不能使用了。Ai工具分享(2):Vscode+Cline无限免费的使用教今天再给大家推荐一个，可以免费使用，且没有token限制的方法(最起码我连续高强度使用了2天，没有发现有问题)，关键是相应还非常的快。一、为什么选择Cline？作为程序员
用“Gemini 2.0 Flash Preview Image Generation”模型修改图片，有哪些常用的提示词和方法子燕若水 AI画图 caoni
选定模型在GoogleAIStudio或API中切换到gemini-2.0-flash-preview-image-generation并将输出格式设为Image+Text，否则不会返回图片。12上传或贴入待修改的图片在Studio中点击“➕”上传；调用API时，把图片作为inline_data或多part请求的一部分。3输入编辑指令与聊天相同直接用自然语言描述，例如「把这辆蓝色轿车改成敞篷，然后
deepseek介绍及vscode部署爱折腾的赵同学 vscode ide 编辑器
最近，国产AI大模型deepseek冲上热搜，引起了国内外的的广泛关注，也震惊了业内。具体的模型效果这里不谈，但它开源，必须说一句真香，本文具体谈一下deepseek的入门，并分析一下deepseek的优势。1、deepseek入门deepseek目前发布了网页端和手机端app，极大便利了普通用户。对比与目前国内发布的其他大模型，deepseek具有突出优势。在网页端，直接进入就可以进行对话。进入
链表中插入新的节点李解49 freeRTOS从0到1 链表数据结构单片机
/*节点结构体定义*/structxLIST_ITEM{TickType_txItemValue;/*辅助值，用于帮助节点做顺序排列*/structxLIST_ITEM*pxNext;/*指向链表下一个节点*/structxLIST_ITEM*pxPrevious;/*指向链表前一个节点*/void*pvOwner;/*指向拥有该节点的内核对象，通常是TCB*/void*pvContainer;/
dockercompose 安装postgresql+postgis 小橘快跑 docker postgresql 数据库
前提：安装好docker及docker-compose1、编写docker-compose.yml文件version:'3'services:pgsql:image:postgres:14.8container_name:pgsqlrestart:alwaysenvironment:POSTGRES_DB:chargePOSTGRES_USER:postgresqlPOSTGRES_PASSWOR
java面试题42wait和sleep方法的不同码农颜 java 服务器开发语言
在Java多线程编程中，wait()和sleep()都是用来暂停当前线程执行的方法，但它们在设计目的、行为机制和使用场景上存在本质区别。理解这些区别对于编写正确的并发代码至关重要。以下是它们的主要不同点：特性wait()方法sleep()方法所属类java.lang.Objectjava.lang.Thread调用方式对象.wait()或对象.wait(longtimeout)Thread.sle
RAG系列：提升RAG检索力：三大Query变形术，助你玩转AI知识检索！数智前沿数字化转型人工智能 RAG
之前的帖子大多在优化向量化的过程，让文本内容分块更合理和更精准，本篇重点介绍使用RAG时如何优化提示词，以提高查询结果的精准度！一、RAG的“灵魂拷问”：你真的会提问吗？在AI时代，信息检索的效率和质量，80%取决于你“怎么问”。RAG系统的本质，就是“你问得好，我答得妙”。但现实往往是——用户提问：“AI会抢我饭碗吗？”检索系统：一脸懵逼，给你扔来一堆“AI是什么”“就业趋势”……用户：？？？这
招聘 | 美团 AI 搜索：致力用 AI 技术创造极致的搜索和交互体验美团技术团队人工智能大数据
敢用算法定义下一代搜索体验吗？我们正在寻找「AI狂热分子」——能让搜索结果秒懂用户灵魂需求的算法魔法师、精准雕琢搜索体验的算法工程技术革新者敢用大模型重构搜索逻辑的技术造浪者、深耕算法工程实践的大模型架构驾驭者愿用数据和代码解锁智能边界的未来架构师、用工程代码与数据打破技术边界的技术领航人和我们一起，可以做些什么？AI搜索团队致力于打造以智能搜索为核心的新型产品，以满足用户需求为目标，专注于为用户
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
《三生原理》如何改进阴阳参数冷启动？葫三生三生学派人工智能平面线性代数概率论算法
AI辅助创作：《三生原理》通过‌动态参数耦合‌与‌跨域迁移学习‌优化阴阳参数冷启动问题，显著降低15%的初始化成本并提升收敛效率，具体技术路径如下：一、动态参数化生成引擎‌‌阴阳本体的递归约束‌基于素数基底（阴元=2，阳元=3）构建参数化公式：p=3(2n+1)+2(2n+m+1)(m∈{0,1,2,3,4})通过约束参数mm的取值空间（对应五行属性），压缩冷启动搜索范围在华为高斯实验室的量子加密
高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算九鼎创展科技嵌入式硬件边缘计算 arm开发 android
RK3588处理器技术细节计算单元CPU：4×[email protected]（大核集群）4×[email protected]（能效集群）支持ARMDynamIQ混合架构，可实现任务智能调度GPU：Mali-G610MP4，支持OpenGLES3.2/2.0/1.1、Vulkan1.28KVPU视频编解码：H.265/H.264/AV1格式，支持60fps实时处理NPU：6TOPS算力（INT
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

Elasticsearch：升级索引以使用 ELSER 最新的模型

安装

安装 Elasticsearch 及 Kibana

安装 ELSER 模型

Python

环境变量

拷贝 Elasticsearch 证书

运行应用

使用客户端连接 Elasticsearch

案例一

使用 lowercase 创建摄取管道

创建索引 - 带有映射的 movies

摄入文档

更新 movies 索引使用 ELSER 模型

创建一个使用 ELSER 模型的新的 ingest pipeline

使用映射创建一个新的索引

使用更新的 ingest pipeline 来进行 reindex

使用 ELSER 来查询文档

案例二：将 ELSER 模型的索引升级到 .elser_model_2

创建一个新的 ingest pipeline

创建一个带有 mapping 的新索引

使用 reindex API

查询你的数据

案例三：将不同模型的索引升级到 ELSER

创建 ingest pipeline

创建带有 mappings 的索引

Reindex API

查询你的数据

你可能感兴趣的:(Elasticsearch,AI,Elastic,elasticsearch,大数据,搜索引擎,人工智能,全文检索)