汀、人工智能

Elasticsearch向量检索的演进与变革：从基础到应用

1.引言

向量检索已经成为现代搜索和推荐系统的核心组件。

通过将复杂的对象（例如文本、图像或声音）转换为数值向量，并在多维空间中进行相似性搜索，它能够实现高效的查询匹配和推荐。

Elasticsearch 作为一款流行的开源搜索引擎，其在向量检索方面的发展也一直备受关注。本文将回顾 Elasticsearch 向量检索的发展历史，重点介绍各个阶段的特点和进展。以史为鉴，方便大家建立起 Elasticsearch 向量检索的全量认知。

2. 初步尝试：简单向量检索的引入

Elasticsearch 最初并未专门针对向量检索进行设计。然而，随着机器学习和人工智能的兴起，对于高维向量空间的查询需求逐渐增长。

在 Elasticsearch 的 5.x 版本中，Elastic 爱好者们开始尝试通过插件和基本的数学运算实现简单的向量检索功能。如：一些早期的插件如 elasticsearch-vector-scoring、fast-elasticsearch-vector-scoring 就是为了满足这样的需求。

https://github.com/MLnick/elasticsearch-vector-scoring

https://github.com/lior-k/fast-elasticsearch-vector-scoring

这一阶段的向量检索主要用于基本的相似度查询，例如文本相似度计算。虽然功能相对有限，但为后续的发展奠定了基础。

扩展说明：关于机器学习功能，如果大家对 Elasticsearch 版本更迭感兴趣，印象中当时 6.X 版本推出，非常振奋人心。不过受限于非开源功能，国内的真实受众还相对较少。

3. 官方支持：进一步发展

到 Elasticsearch 7.0 版本，正式开始增加对向量字段的支持，例如通过 dense_vector 类型。这标志着 Elasticsearch 正式进入向量检索领域，不再只依赖于插件。

dense_vector 最早的发起时间：2018 年 12 月 13 日，7.6 版本标记为 GA。

https://github.com/elastic/elasticsearch/pull/33022

https://github.com/elastic/elasticsearch-net/issues/3836

关于 dense_vector 类型的使用，推荐阅读：高维向量搜索：在 Elasticsearch 8.X 中利用 dense_vector 的实战探索。

这一阶段的主要挑战是如何有效地在传统的倒排索引结构中支持向量检索。通过与现有的全文搜索功能相结合，Elasticsearch 能够提供一种灵活而强大的解决方案。

从最初的插件和基本运算，到后来的官方支持和集成，这一阶段为 Elasticsearch 在向量检索方面的进一步创新和优化奠定了坚实的基础。

4.专门优化：增强的相似度计算

随着需求的增长，Elasticsearch 团队开始深入研究并优化向量检索性能。这涉及了引入更复杂的相似度计算方法，例如余弦相似度、欧几里得距离等，以及对查询执行的优化。

从 Elasticsearch 7.3 版本开始，官方引入了更复杂的相似度计算方法。特别是 script_score 查询的增强，使用户可以通过 Painless 脚本自定义更丰富的相似度计算。

/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#vector-functions

核心功能在于允许通过向量之间的夹角计算相似度，用 k 最近邻 (k-NN) 的余弦相似度距离指标，从而为相似度搜索引擎提供支持。广泛用于文本分析和推荐系统。

主要用于解决：复杂相似度需求，提供了更灵活和强大的相似度计算选项，能够满足更多的业务需求。

应用场景体现在：

（1）个性化推荐：通过余弦相似度分析用户的行为和兴趣，提供更个性化的推荐内容；
（2）图像识别和搜索：使用欧几里得距离快速检索与给定图像相似的图像；
（3）声音分析：在声音文件之间寻找相似模式，用于语音识别和分析。

值得一提的是：初始的时候，向量检索支持的维度为：1024，直到 Elasticsearch 8.8 版本，支持维度变更为：2048（这是呼声很高的一个需求）。

https://github.com/elastic/elasticsearch/pull/95257

/t/vector-knn-search-with-more-than-1024-dimensions/332819

Elasticsearch 7.x 版本的增强相似度计算功能标志着向量检索能力的显著进展。通过引入更复杂的相似度计算方法和查询优化，Elasticsearch 不仅增强了其在传统搜索场景中的功能，还为新兴的机器学习和 AI 应用打开了新的可能性。

但，这个时候你会发现，如果要实现复杂的向量搜索功能，自己实现的还很多。如果把后面马上提到的深度学习的集成和大模型的出现比作：飞行的汽车，当前的阶段还是 “拉驴车”，功能是有的，但用起来很费劲。

5.深度学习集成与未来展望

大模型时代，向量检索和多模态搜索成为 “兵家” 必争之地。

多模态检索是一种综合各种数据模态（如文本、图像、音频、视频等）的检索技术。换句话说，它不仅仅是根据文字进行搜索，还可以根据图像、声音或其他模态的输入来搜索相关内容。

为了更通俗地理解多模态检索，我们可以通过以下比喻和示例来加深认识：想象你走进一个巨大的图书馆，这里不仅有书籍，还有各种图片、录音和视频。你可以向图书馆员展示一张照片，她会为你找到与这张照片相关的所有书籍、音频和视频。或者，你可以哼一段旋律，图书馆员能找到相关的资料，或者提供类似的歌曲或视频。这就是多模态检索的魔力！

随着深度学习技术的不断发展和应用，Elasticsearch 已开始探索将深度学习模型直接集成到向量检索过程中。这不仅允许更复杂、更准确的相似度计算，还开辟了新的应用领域，例如基于图像或声音的搜索。尤其在 Elasticsearch 的 8.x 版本，这一方向得到了显著的推进。

5.1 向量化是前提

如下图所示，先从左往右看是写入，图像、文档、音频转化为向量特征表示，在 Elasticsearch 中通过 dense_vector 类型存储。

从右往左看是检索，先将检索语句转化为向量特征表示，然后借助 K 近邻检索算法（在 Elasticsearch 中借助 Knn search 实现），获取相似的结果。

看中间，Results 部分就是向量检索的结果。

综上，向量检索打破了传统倒排索引仅支持文本检索的缺陷，可以扩展支持文本、语音、图像、视频多种模态。

图片来自：Elasticsearch 官方文档

相信你到这里，应该理解了向量检索和多模态。没有向量化的这个过程，多模态检索无从谈起。

5.2 模型是核心

深度学习模型集成总共可分为三步：

第一步：模型导入和管理：Elasticsearch 8.x 支持导入预训练的深度学习模型，并提供相应的模型管理工具，方便模型的部署和更新。
第二步：向量表示与转换：通过深度学习模型，可以将非结构化数据如图像和声音转换为向量表示，从而进行有效的检索。
第三步：自定义相似度计算：8.x 版本提供了基于深度学习模型的自定义相似度计算接口，允许用户根据实际需求开发和部署专门的相似度计算方法。

关于深度学习，可以是自训练模型，也可以是第三方模型库中的模型，举例：咱们图搜图案例中就是用的 HuggingFace 里的：clip-ViT-B-32-multilingual-v1 模型。

Elasticsearch 支持的第三方模型列表：

名称	模型释义
BERT	双向 Transformer 模型
BART	序列到序列模型
DPR bi-encoders	双向编码器检索模型
DistilBERT	轻量化 BERT
ELECTRA	对抗性预训练模型
MobileBERT	针对移动设备的 BERT
RoBERTa	优化版 BERT
RetriBERT	检索 - focused BERT
MPNet	混合并行网络
SentenceTransformers bi-encoders	句子转换双向编码器
XLM-RoBERTa	多语言版 RoBERTa

包括如下的 Hugging Face 模型库也都是支持的。

模型是 Elasticsearch 与深度学习集成的核心，它能将复杂的数据转化为 “指纹” 向量，使搜索更高效和智能。借助模型，Elasticsearch 可以理解和匹配各种非结构化数据，如图像和声音，提供更为准确和个性化的搜索结果，同时适应不断变化的数据和需求。“没有了模型，我们还需要黑暗中摸索很久”。

第三方模型官网介绍：/guide/en/machine-learning/8.9/ml-nlp-model-ref.html#ml-nlp-model-ref-text-embedding

值得一提的是：Elasticsearch 导入大模型需要专属 Python 客户端工具 Eland。

Eland 是一个 Python Elasticsearch 客户端，让用户能用类似 Pandas 的 API 来探索和分析 Elasticsearch 中的数据，还支持从常见机器学习库上传训练好的模型到 Elasticsearch。

Eland 是为了与 Elasticsearch 协同工作而开发的库。它不是 Elasticsearch 的一个特定版本产物，而是作为一个独立的项目来帮助 Python 开发者更方便地在 Elasticsearch 中进行数据探索和机器学习任务。

Eland 更多参见：

/guide/en/elasticsearch/client/eland/current/index.html

https://github.com/elastic/eland

5.3 ESRE 是 Elastic 的未来

前一段时间在分别给两位阿里云、腾讯云大佬聊天的时候，都提到了 Elasticsearch Relevance Engine (ESRE) 才是 Elastic 未来。

ESRE 官方介绍如下：——Elasticsearch Relevance Engine 将 AI 的最佳实践与 Elastic 的文本搜索进行了结合。ESRE 为开发人员提供了一整套成熟的检索算法，并能够与大型语言模型 (LLM) 集成。借助 ESRE，我们可以应用具有卓越相关性的开箱即用型语义搜索，与外部大型语言模型集成，实现混合搜索，并使用第三方或我们自己的模型。

ESRE 集成了高级相关性排序如 BM25f、强大的矢量数据库、自然语言处理技术、与第三方模型如 GPT-3 和 GPT-4 的集成，并支持开发者自定义模型与应用。其特点在于提供深度的语义搜索，与专业领域的数据整合，以及无缝的生成式 AI 整合，让开发者能够构建更吸引人、更准确的搜索体验。

在 Elasticsearch 8.9 版本上新了：Semantic search 语义检索功能，对官方文档熟悉的同学，你会发现如下截图内容，早期版本是没有的。

语义搜索不是根据搜索词进行字面匹配，而是根据搜索查询的意图和上下文含义来检索结果。

更进一步讲：语义搜索不仅仅是匹配你输入的关键字，而是试图理解你的真正意图，给你带来更准确、更有上下文的搜索结果。简单来说，如果你在英国搜索 “football”，系统知道你可能想要搜橄榄球，而不是足球（在美国 football 是足球）。

这种智能搜索方式，得益于强大的文本向量化等技术背景，使我们的在线搜索体验更加直观、方便和满意。

在文本里检索 connection speed requirement, 这点属于早期的倒排索引检索方式，或者叫全文检索中的短语 match_phrase 检索匹配或者分词 match 检索匹配。这种可以得到结果。
但是，中后半段视频显示，要是咱们要检索：“How fast should my internet be” 怎么办？

其实这里转换为向量检索，fast 和 speed 语义相近，should be 和 required、needs 语义相近，internet 和 connection、wifi 语义相近。所以依然能召回结果。

这突破了传统同义词的限制，体现了语义检索的妙处！

更进一步，我们给出语义检索和传统分词检索的区别，以期望大家更好的理解语义搜索。

项目	语义搜索	传统分词搜索
核心技术	基于矢量搜索，机器学习和人工智能	基于文本匹配和查询扩展
搜索目的	理解查询的深层意义和上下文	直接匹配关键词或扩展的词汇
处理上下文	能够根据搜索者的地理位置、搜索历史等信息调整结果	通常不考虑这些额外的上下文信息
搜索结果的相关性	根据查询的意图和上下文排名结果	主要基于关键词的频率和位置匹配
处理同义词和多义词	能够理解词语在不同上下文中的意义，并据此返回结果	通常使用同义词表或词汇扩展工具，可能不总是理解上下文中的真正意义
对查询的理解	能够区分如 “chocolate milk” 和“milk chocolate”这样的查询，即使关键词顺序或形式相同	可能只是简单地匹配关键词，而不理解它们的真正意思
学习和适应能力	通过机器学习不断改进，根据用户的反馈和行为适应	通常基于固定的算法和规则，没有持续学习和适应的能力
用户体验	提供更准确和有上下文的结果，从而提高用户满意度	依赖于用户精确输入，可能返回与用户实际意图不匹配的结果

总体而言，深度学习集成已经成为 Elasticsearch 向量检索能力的有力补充，促使它在搜索和分析领域的地位更加牢固，同时也为未来的发展提供了广阔的空间。

6.小结

Elasticsearch 的向量检索从最初的简单实现发展到现在的高效、多功能解决方案，反映了现代搜索和推荐系统的需求和挑战。随着技术的不断演进，我们可以期待 Elasticsearch 在向量检索方面将继续推动创新和卓越。

说一下最近的感触，向量检索、大模型等新技术的出现有种感觉 “学不完，根本学不完”，并且很容易限于 “皮毛论”（我自创的词）——所有技术都了解一点点，但经不起提问；浅了说，貌似啥都懂，深了说，一问三不知。

这种情况怎么办？我目前的方法是：以实践为目的去深入理解理论，必要时理解算法，然后不定期将所看、所思、所想梳理成文，以备忘和知识体系化。这个过程很慢、很累，但我相信时间越长、价值越大。

欢迎大家就向量检索等问题进行留言讨论交流，你的问题很可能就是下一次文章的主题哦！

7.参考

1、/cn/blog/text-similarity-search-with-vectors-in-elasticsearch

2、/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#vector-functions-cosine

3、https://zhuanlan.zhihu.com/p/552249981

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

个人职业发展与AI赋能的前端开发前端
在瞬息万变的科技浪潮中，个人职业发展显得尤为重要。对于前端开发者而言，如何提升自身竞争力，适应日新月异的技术革新，是持续关注的核心问题。而近年来，人工智能（AI）技术的飞速发展，特别是AI代码生成器的兴起，正深刻地改变着前端开发的格局，为开发者们提供了前所未有的机遇。本文将以ScriptEcho为例，探讨AI技术如何赋能前端开发，助力个人职业发展。市场趋势与个人技能提升当前市场对前端开发人才的需求
代码重构的革命：AI代码生成器如何改变游戏规则前端
在软件开发的世界里，代码重构是一项既重要又艰巨的任务。繁琐的重复性工作、低下的效率以及难以避免的错误，常常让开发者们疲惫不堪。然而，随着人工智能技术的飞速发展，智能化代码重构的时代已经到来，而AI代码生成器正成为这场革命的核心驱动力。代码重构的挑战：一个开发者的心声传统的代码重构过程充满了挑战。想象一下，你需要将一个庞大的、混乱的代码库改造成模块化、易于维护的结构。这需要你花费大量的时间去理解现有
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
寒假集训1.21 学长学姐我该怎么办算法
问题A:TYVJ1025单数？双数？内存限制：128MB时间限制：0.000S评测方式：文本比较命题人：外部导入提交：521解决：230返回比赛提交提交记录侧边提交题目描述Bessie那惨无人道的二年级老师搞了一个有N(1=n/2:print(key)问题N:寻找第K大的数内存限制：20MB时间限制：1.000S评测方式：文本比较命题人：liuyong提交：4033解决：1744返回比赛提交提交记
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
月之暗面今日发布k1.5多模态思考模型百态老人笔记人工智能
月之暗面k1.5多模态思考模型的问世一、月之暗面k1.5多模态思考模型介绍2025年1月20日，月之暗面发布了k1.5多模态思考模型。这一模型在基准测试成绩方面展现出了非凡的性能，它实现了SOTA（state-of-the-art）级别的多模态推理和通用推理能力。多模态推理即模型能够对多种类型的数据（如文本、图像等）进行整合分析推理，通用推理能力则表明它可以广泛应用于多种任务场景进行有效的逻辑推理
Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
embed版Python如何安装第三方包 peanutwang python 开发语言
embed版本相当于一个纯Python运行环境，解压之后在命令行就可以Python.exexxx.py。但是涉及到使用第三方包的情况，还是需要安装的。以下是安装方法（整个过程无需配置环境变量）：1.解压python-3.8.10-embed-amd642.配置包导入搜索路径默认的包导入搜索路径由根目录内pythonXX._pth，打开它把它前面的#注释去掉#importsite3.配置pip国内源
【Elasticsearch 】聚合分析：聚合概述程风破～ Elasticsearch elasticsearch 大数据搜索引擎
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
Label标签的属性 Cc_zhH GUI开发 python
Label标签的属性以下是TkinterLabel组件的一些常用属性，以及它们的详细说明：属性名说明text标签上显示的文本。font标签文本的字体，格式为(font_name,size)或(font_name,size,style)，其中style可以是"bold"、"italic"等。fg文本的前景色（即文本颜色）。bg标签的背景色。width标签的宽度，以文本单位（一个空格的宽度）为单位。h
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
VIM 的 YCM 插件哎呦，帅小伙哦开发工具 vim 编辑器 linux
1、背景VIM是一个非常强大的文本编辑器，因其高效的操作方式和丰富的插件生态系统而备受开发者喜爱。对于开发人员来说，代码补全和智能提示是提升编程效率的重要工具，而YouCompleteMe（YCM）插件就是其中一款功能强大且广泛使用的补全插件。YouCompleteMe（简称YCM）是一个为VIM编辑器设计的代码补全插件。它能够提供智能代码补全、错误检查、实时提示等功能，支持多种编程语言，如C/C
Docker的原理：如何理解容器技术的力量思维导图-java架构用心去追梦大数据 java storm
要理解Docker的原理以及容器技术的力量，可以通过一个思维导图来帮助整理和展示信息。以下是一个基于文本的思维导图结构，用于说明Docker和容器技术的关键概念，特别关注于Java架构师可能会感兴趣的部分：Docker与容器技术│├───基本概念│├───容器(Container)││└───是一个轻量级、可移植、自包含的软件包│├───镜像(Image)││└───包含应用程序及其所有依赖项的只
实现音乐播放器实现:前端HTML，CSS，JavaScript综合大项目（java实战）用心去追梦前端 html css
创建一个音乐播放器项目，使用HTML、CSS和JavaScript作为前端技术栈，并结合Java后端（如果需要），可以是一个很好的实战项目。这个项目不仅能够帮助你掌握前端开发技能，还能让你了解如何与后端交互来获取数据。下面是实现这样一个音乐播放器项目的步骤指南，包括了从规划到部署的各个方面。1.项目规划规划功能基本功能播放/暂停按钮。音量控制。进度条。歌曲列表显示。高级功能随机播放。列表循环。搜索
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
数据结构学习记录-队列墨楠。 #C 语言数据结构研习汇数据结构学习
队列的基本概念1、队列是操作受限的线性表2、队头：允许删除的一端3、队尾：允许插入的一端4、空队列：不含任何元素的空表5、特点：先进先出、FIFO6、应用场景：栈：解决括号匹配；逆波兰表达式求解;递归改非递归等等队列：公平排队，广度优先遍历等等队列的结构：队列的具体实现结构比较灵活，只要遵循先进先出原则即可。顺序表的方式实现，如果用数组表示，虽然尾插数据比较方便，但当头删数据时，还要移动剩余元素，
二分查找（Java版）爱学Java Java数据结构与算法 java 算法
二分查找算法Java版算法介绍算法复杂度算法思想算法注意事项算法基础版改进版平衡版最左侧查找最右侧查找总结二分查找算法介绍算法复杂度时间复杂度：O(logn)空间复杂度：O(1)算法思想二分查找（BinarySearch）是一种高效的搜索算法，适用于在有序数组或序列中查找目标元素的位置。其核心思想是利用数组的有序性，将查找范围逐步缩小至目标值所在的子范围。1，确定查找范围：在有序数组中，设定两个指
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
ChatGPT搜索漏洞：AI代码生成器安全隐患及应对策略前端
近年来，随着人工智能技术的飞速发展，各种AI代码生成器层出不穷，为程序员带来了极大的便利。然而，技术进步的同时也伴随着安全风险的提升。最近，OpenAI的ChatGPT搜索工具曝出重大安全漏洞，引发了业界广泛关注。本文将深入探讨该漏洞的细节、影响以及应对措施，并展望未来AI工具安全发展趋势。ChatGPT作为一款强大的AI工具，其搜索功能本意是帮助用户快速获取信息。然而，英国卫报近期报道揭露了Ch
deepin-grep详解：文本搜索的强大工具 deepin
在Linux系统中，grep命令是一个极其强大的文本搜索工具，广泛应用于文本处理、日志分析和数据筛选等场景。它的全称是“GlobalsearchREgularexpressionandPrintouttheline”，即全局搜索正则表达式并打印匹配的行。本文将详细介绍grep命令的基本用法、常用选项以及正则表达式的使用技巧。1.grep命令的基本功能grep命令的主要作用是从文本文件或管道数据流中
python中lxml 库之 etree 使用详解闲人陈二狗 python 开发语言
目录一、etree介绍二、xpath解析html/xml1、第一步就是使用etree连接html/xml代码/文件。2、xpath表达式定位①xpath结合属性定位②xpath文本定位及获取③xpath层级定位④xpath索引定位⑤xpath模糊匹配一、etree介绍lxml库是Python中一个强大的XML处理库，简单来说，etree模块提供了一个简单而灵活的API来解析和操作XML/HTML文
【大模型】Spring AI对接ChatGpt使用详解小码农叔叔微服务治理与实战 springboot 入门到精通 spring spring ai Aspring Ai spring ai对接gpt spring ai整合gpt spring ai使用详解 spring ai使用
目录一、前言二、springai介绍2.1什么是SpringAI2.2SpringAI特点2.3SpringAI为开发带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本2.4.4嵌入大模型使用2.4.5矢量数据库支持2.4.6用于数据工程ETL框架三、SpringAI对接ChatGPT3.1前置准备3.2添加依赖3.3接入流程3.3.1配置文件3
ent.SetDatabaseDefaults() yngsqq CAD C#二次开发数据库
在AutoCAD的.NETAPI中，ent.SetDatabaseDefaults()这句代码通常用于将一个实体（Entity）对象的属性设置为与其所在的数据库（Database）的默认设置相匹配。这意味着，该实体将采用数据库级别的默认颜色、图层、线型等属性，除非这些属性已经被显式地设置为了其他值。这里的ent是一个代表AutoCAD中实体的变量，它可能是Entity类或其任何子类的实例，如Lin
【YashanDB知识库】YashanDB与Oracle数据类型对齐数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253737.html?templateId=171...关于参数USE\_NATIVE\_TYPE在迁移基于Oracle数据库的应用时，有时会遇到应用代码中定义的数据类型与YashanDB返回数据类型不匹配的问题，可以尝试在创建数据库的时候指定参数USE\_NATIVE\_TYPE
windows 10 32bit 配置Python编程环境 wangbingfeng0 tools maintenance
确认系统架构点击桌面左下角的搜索按钮，输入cmd运行命令行界面（CommandPrompt）；在命令行界面输入wmicCPUgetDataWidth↩︎，返回的是CPU的架构，64或32位；在命令行界面输入wmicOSgetOSArchitecture↩︎，返回的是Windows操作系统架构，64或32位。确认PowerShell版本PowerShell是Windows下的增强命令行环境，也是我们
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Elasticsearch向量检索的演进与变革：从基础到应用