我最喜欢xka

多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型

首先，附上 Github 链接LakeSoul：https://github.com/meta-soul/MetaSpore，可搜索公众号元灵数智，在底部菜单了解我们 - 用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。

随着深度学习技术在计算机视觉、自然语言处理、语音理解等领域不断取得创新性突破，越来越多的非结构化数据被机器进行感知、理解和加工。这些进展主要得益于深度学习的强大表征学习能力，通过在海量数据上对深度模型进行预训练，使得模型捕捉到数据内在模式，进而对大量下游任务带来帮助。随着工业界和学术界投入越来越多精力在预训练技术研究上，陆续出现了 HuggingFace 和 Timm 这样的预训练模型分发仓库，预训练大模型红利正在被开源社区以前所未有的速度在释放着。

近年来机器建模和理解的数据形态逐渐从单模态向多模态演进，不同模态之间的语义鸿沟正在消弭，使得跨模态检索落地成为可能。以 OpenAI 的开源工作 CLIP 为例，在 4 亿图文数据集上对图文双塔模型进行预训练，将图像和文本之间的语义衔接了起来，学术界已经有不少研究人员在基于这项技术解决图文生成、检索等多模态问题。回到工业界来看，虽然前沿技术打通了多模态数据之间的语义鸿沟，但依然存在繁复的模型调优、离线数据处理、高性能的线上推理架构设计、异构计算以及在线算法应用落地等多个流程和挑战，这些都阻碍了前沿多模态检索技术的落地和普惠。

北京数元灵科技针对以上技术痛点，对模型训练优化、线上推理、算法实验等多个环节进行抽象统一，形成一套可以快速应用离线预训练模型到线上的解决方案。本文将向大家介绍，如何基于 MetaSpore 技术生态来使用 HuggingFace 社区预训练模型进行线上推理和算法实验，让预训练模型红利更充分释放到工业界、普惠到中小企业的具体业务中，并且我们会给出以文搜文和以文搜图两个多模态检索演示样例供大家参考。

1.多模态语义检索

本文介绍的多模态检索演示样例架构如下：

我们的多模态检索系统同时支撑以文搜文和以文搜图应用场景，含有离线处理、模型推理以及在线服务等核心模块：

1.离线处理，含有以文搜文和以文搜图不同应用场景的离线数据处理流程，包括模型调优、模型导出、数据索引建库、数据推送等。

2.模型推理，离线模型训练完毕之后，我们基于 MetaSpore Serving 框架，部署我们的 NLP、CV 大模型，MetaSpore Serving 可以帮助我们方便地进行在线推理、弹性调度、负载均衡，以及在异构环境中进行资源调度。

3.在线服务，我们基于 MetaSpore 在线算法应用框架，打造了一套完整可重用的在线检索服务，包括：前端检索 UI、多模态数据预处理、向量召回和排序算法、AB 实验框架等，同时支撑以文搜文和以文搜图场景，并可低成本迁移到其它应用场景。

一般来说，对于类似的多模态检索问题，HuggingFace 开源社区已经提供了很多优秀的基线模型，工业界的实际优化往往也是以此为起点。我们在以文搜文和以文搜图的线上服务中同样使用了 HuggingFace 社区的预训练模型，其中以文搜文基于我们调优的问答领域语义相似模型，以文搜图基于开箱即用的社区预训练模型。

这些社区开源预训练模型会被导出为通用 ONNX 格式，并载入 MetaSpore Serving 进行在线推理，下文会对模型的导出上线、数据的检索建库以及在线检索算法服务等内容展开详细的介绍。其中模型推理的部分，是标准化的 SAAS 服务，和业务的耦合性较低，感兴趣的读者可以参考我们之前的公众号文章：揭秘！新一代一站式机器学习平台MetaSpore的设计理念。

1.1 离线处理

离线处理主要涉及到上线模型的导出和载入以及文档库的索引建库和推送，大家可以按照下文逐步指引来完成以文搜文和以文搜图检索的离线处理工作，通过这两个样例大家也可以了解离线预训练模型是怎样实现在 MetaSpore Serving 上推理的。

1.1.1 以文搜文

传统的文本检索系统基于 BM25 之类的字面匹配算法实现，由于用户表达 query 查询词多种多样，往往会遇到查询词跟文档之间语义鸿沟的问题，比如用户把 “iPhone” 错拼为 “Ihone”、查询词极为长尾 “1～3月龄男婴秋季小尺码包包裤”等，传统文本检索系统会利用拼写纠错、同义词扩展、查询词改写等手段来缓解语义鸿沟问题，但未能从根本上解决这个问题。检索系统只有充分理解了用户查询词和文档的语义，才能够在语义层面满足用户的检索诉求，近年来随着预训练和表征学习技术不断进步，一些商业搜索引擎不断将基于表征学习的语义向量检索方法融入到检索生态中。

语义检索模型

本文介绍的以文搜文是一套完全基于语义向量检索的应用，我们以百科问答数据为基础，构建了一套问答语义检索系统。我们采用了 Sentence-BERT 模型作为语义向量表示模型，该模型通过监督或无监督方式来对双塔 BERT 进行微调，使得模型更适配检索任务，模型结构如下：

以文搜文问答检索在这里使用的是 query-doc 对称双塔模型，也即线上 query 的向量表示和离线 doc 的向量表示共用一个向量表示模型，因此一定要保证离线 doc 建库模型和在线 query 推理模型的一致性。这里使用了我们在开源语义相似数据集上调优的文本表示模型 sbert-chinese-qmc-domain-v1，离线建库时问答数据会被该模型表示为向量，在线检索时也是用该模型来把用户查询 query 表示为向量，这样保证了 query-doc 在同一个语义空间中，用户语义检索诉求可以用向量相似度量计算得到保证。

由于文本表示模型要在线上对 query 进行向量编码，因此我们需要导出该模型，以供在线服务使用。进入问答数据的建库代码目录，参照说明文档将模型导出，在脚本中会利用 Pytorch 的 Tracing 机制来完成导出。模型将被导出到 ./export 目录，导出内容主要有线上推理使用的 ONNX 模型和预处理模型 Tokenizer 以及有关配置文件，导出模型会被下文介绍的线上服务体系载入到 MetaSpore Serving 中进行模型推理（注：由于导出模型会被拷贝到云存储，需要在 env.sh 中配置相关变量)。

文本搜索建库

以文搜文检索基于百万级百科问答数据集来构建检索库，大家需要下载此数据并根据说明文档完成建库，问答数据会被离线模型编码为向量，然后建库数据将被推送到服务组件中。整个建库过程说明如下：

1.预处理，把原始数据转换为较为通用的 jsonline 格式以供建库使用；
2.构建索引，使用跟线上相同的模型 sbert-chinese-qmc-domain-v1 来索引文档（每行一个文档对象）；
3.推送倒排和正排，把倒排（向量）和正排（文档字段）数据分别推送到各个组件服务端。

建库数据格式样例如下所示。离线建库完成后，各种数据被推送到对应的服务组件中，比如 Milvus会存储文档的向量表示、 MongoDB会存储文档的摘要信息，这些服务组件会被在线检索算法服务所调用来获取相关数据。

# 预处理
{"id": "0", "question": "人站在地球上为什么没有头朝下的感觉 ", "answer": "地球上重力作用一直是指向球心的，因此
只要头远离球心，人们就回感到头朝上。", "category": ["教育/科学", "理工学科", "地球科学"]}

# Milvus
{"id": 0, "image_emb": [-0.058228425681591034, -0.006109456066042185, -0.005825215484946966,...,-0.04344896227121353, 0.004351312294602394]}

# MongoDB
{"question" : "人站在地球上为什么没有头朝下的感觉 ", "answer" : "地球上重力作用一直是指向球心的，因此
只要头远离球心，人们就回感到头朝上。", "category": ["教育/科学", "理工学科", "地球科学"], "queryid" : "0" }

1.1.2 以文搜图

文本和图像对于人类来说很容易把它们的语义关联起来，但对机器来说却较为困难。首先从数据形式上来看，文本是基于字和词的离散 ID 型一维数据，而图像则是连续型的二维或三维数据；还有文本是人类主观的创作，其表达能力极为丰富，含有各种转折、隐喻等表述方式，而图像则是对客观世界的机器表示；总之，要将文本和图像数据之间的语义鸿沟打通远比上述以文搜文要难很多。传统以文搜图检索技术，一般会依赖图片的外部文本描述数据或者近邻检索技术，通过图像关联文本进行检索本质上就是将问题退化为了以文搜文，但这样也会面临诸多问题，比如图片关联文本如何获取、以文搜文本身准确度是否足够高等等。近年深度模型逐渐从单模态向多模态演进，以 OpenAI 的开源工作 CLIP为例，通过互联网上海量的图文数据对模型进行训练，将文本和图像数据映射到同一个语义空间中，使得基于语义向量的以文搜图技术落地成为可能。

CLIP图文模型

本文介绍的以文搜图基于语义向量检索来实现，以 CLIP 预训练模型作为双塔检索架构，由于 CLIP 模型已经在海量图文数据上对双塔的文本和图像侧模型进行了语义对齐训练，使其特别适合以文搜图场景，模型结构如下：

由于图片和文本数据形态不同，以文搜图检索使用了 query-doc 非对称双塔模型，离线建库时需要用到双塔的图像侧模型，线上检索时需要用到双塔的文本侧模型，最终在线检索时文本侧模型编码 query 后会对图像侧模型的建库数据进行查找，而图文之间的语义相关性则由 CLIP 预训练模型得到保证（通过在海量图文数据上预训练，模型能够将图文对在向量空间中不断拉近）。
这里我们需要把文本侧模型导出以供线上 MetaSpore Serving 推理。由于我们检索场景是基于中文的，所以选用了支持中文理解的 CLIP 模型。模型导出的具体操作参见文末说明文档，跟以文搜文类似，导出内容主要有线上推理使用的 ONNX 模型和预处理模型 Tokenizer，MetaSpore Serving 可以通过导出内容来载入模型推理。

图像搜索建库

以文搜图检索使用了 Unsplash Lite 图库数据，需要前往下载该数据并根据说明文档指引完成建库操作。整个建库过程说明如下：

1.预处理，指定图片目录，然后生成一个较为通用的 jsonline 文件供建库使用；
2.构建索引，使用 openai/clip-vit-base-patch32 预训练模型对图库进行索引，输出索引数据每行一个文档对象；
3.推送倒排和正排，把倒排（向量）和正排（文档字段）数据分别推送到各个组件服务端。
同以文搜文类似，离线建库完成后，相关数据会被推送到服务组件，这些服务组件会被在线检索算法服务所调用来获取相关数据。

1.2 在线服务

整套在线服务体系架构图如下：

多模态检索线上服务体系，同时支撑以文搜文、以文搜图等应用场景，整套线上服务由以下几部分构成：

1.Query 预处理服务：对预训练模型的预处理逻辑（含文本/图像等）封装，以 gRPC 接口提供服务；

2.检索算法服务：含有 AB 实验切流配置、MetaSpore Serving 调用、向量召回、排序、文档摘要等整个算法处理链路；

3.用户入口服务：提供检索 Web UI 界面，便于用户对检索服务进行调试、问题追查。

从用户请求视角看，以上几个服务从后往前依次形成调用依赖关系，所以要把多模态样例搭建起来，就需要从前往后依次把各个服务先跑起来。当然做这些之前，要记得先把离线的模型导出、上线和建库先搞定哈！接下来我们会依此介绍在线服务体系中的各部分服务，按照下文引导一步一步把整个服务体系搭建起来，更多细节参见文末说明文档。

1.2.1 Query 预处理服务

我们知道深度学习模型一般都是基于张量（Tensor）的运算，不过 NLP/CV 模型往往有一个前置预处理部分，这部分的功能就在于把原始的文本和图片数据转换为深度学习模型可接受的张量形式。比如 NLP 类模型往往有一个前置的 Tokenizer 用来把字符串类型的文本数据转变为离散型的张量数据，还有 CV 类模型也有类似的处理逻辑会通过前置预处理来完成对输入图片的裁剪、缩放、变换等处理。一方面考虑到这部分预处理逻辑跟深度模型的张量推理是解耦的，另一方面深度模型的推理有基于 ONNX 独立的技术体系，所以我们把预处理这部分逻辑拆解了出来。

在这里我们重点针对 HuggingFace NLP/CV 模型的预处理逻辑进行了拆解，目前 NLP 预处理 Tokenizer 已经整合进入了 Query 预处理服务。我们以较为通用的约定进行拆解，用户只需要提供预处理逻辑文件实现载入和预测接口，并导出必要的数据和配置文件，就可以被载入到预处理服务中。后续 CV 预处理逻辑也将以这种方式被集成进来。

目前预处理服务对外提供 gRPC 接口调用，被检索算法服务中的 Query 预处理（QP）模块依赖，用户请求到达检索算法服务后会转发到该服务完成数据预处理，然后再继续后面的处理。关于预处理服务如何启动、离线导出到云存储的预处理模型如何进入服务以及如何调试服务等细节可以参考说明文档。

为了进一步提升模型推理的效率和稳定性，我们正在 MetaSpore Serving 中实现 Python 预处理子模块，可以通过用户指定的 preprocessor.py 提供 gRPC 服务，完成 NLP 中的 Tokenizer 或者 CV 相关的预处理，将请求转成深度模型可处理的 Tensor，然后由 MetaSpore Serving 后续子模块进行模型推理。

这里给出我们在 GitHub 上的代码实现：https://github.com/meta-soul/MetaSpore/compare/add_python_preprocessor

1.2.2 检索算法服务

检索算法服务是整个在线服务体系中的核心，负责实验的分流，预处理、召回、排序等算法链组装以及依赖组件服务的调用等。整个检索算法服务基于 Java Spring 框架开发，同时支持以文搜文和以文搜图多模态检索场景，由于内部进行了较好的抽象和模块化设计，灵活性较高，可以低成本的迁移到类似的应用场景中。

接下来简单地向大家介绍如何配置环境把检索算法服务搭建起来，更多细节参见说明文档：

1.安装依赖组件，使用 maven 来安装 online-serving 组件

2.检索服务配置，拷贝模版配置文件并根据开发/生产环境对里面 MongoDB、Milvus 等配置进行替换。

3.安装配置 Consul，我们通过 Consul 来实时同步检索服务的配置，包括实验的切流、召回参数、排序参数等都可以通过 Consul 实时配置。当前以文搜文和以文搜图应用的配置参数见项目中的配置文件，其中预处理和召回阶段的参数 modelName 就是我们在离线处理中导出的相应模型。

4.启动服务，上述配置完成后可以通过入口脚本来启动检索服务。

服务启动后就可以进行测试啦！举例来说，对于 userId=10 的用户，想要查询 “如何补办身份证”，访问以文搜文检索服务：

curl -H "Content-Type: application/json" -X POST -d '{"query":"如何补办身份证"}' http://localhost:8080/qa/user/10

将得到如下检索结果：

{
  "queryModel" : {
    "query" : "如何补办身份证"
  },
  "searchItemModels" : [ [ {
    "id" : "823067",
    "originalRetrievalScoreMap" : {
      "ann_matcher" : 0.9867960810661316
    },
    "finalRetrievalScore" : 3.9989876453053745,
    "originalRankingScoreMap" : {
      "dummy" : 3.9989876453053745
    },
    "finalRankingScore" : 3.9989876453053745,
    "score" : 3.9989876453053745,
    "summary" : {
      "question" : "怎样补办身份证 ",
      "answer" : "去户口所在地的公安局办理 
",
      "category" : [ "生活", "美容/塑身", "化妆" ]
    }
  }, ...] ]
}

1.2.3 用户入口服务

考虑到检索算法服务是 API 接口形式，较难对问题定位追查，尤其对于以文搜图场景能够直观的展现检索结果便于检索算法的迭代优化。为此我们针对以文搜文和以文搜图检索场景提供了一个轻量的 Web UI 界面，为用户提供了一个搜索输入框和结果展示页面。服务基于 Flask 开发，可以方便的集成其它检索应用，该服务会调用检索算法服务并把返回结果展示到页面中。
服务安装和启动也很方便，启动完成后，前往 http://127.0.0.1:8090 去查看搜索 UI 服务是否运行正常，具体细节参考文末说明文档。

多模态系统演示

当按照上述指引完成离线处理和在线服务环境配置后，我们就可以启动多模态检索服务啦！
可以点击链接下滑至末尾查看视频教程
多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型 (qq.com)

2.1 以文搜文—百科问答

我们进入到以文搜文应用的入口，来探究一下问答语义检索系统，输入 “给宝宝起名字”，检索返回前 3 个结果都是关于给宝宝起名字相关的问答内容：

再让我们把检索词加强一下，添加一个性别属性的约束，改为 “给男孩子宝宝起名字” 来查询一下，检索结果可以看到有男性宝宝起名字有关的内容：

我们在继续对检索词添加一个属相约束，改为 “给男孩子宝宝起名字，属牛”，可以看到返回第一条结果就是关于牛年男宝宝起名字的内容：

在上述示例中，我们围绕“给宝宝起名字”这个主题，不断对检索词添加约束，检索诉求越来越精确，语义检索系统都能够返回相关内容。

2.2 以文搜图—图库检索

我们再进入以文搜图应用的入口，先来输入 “猫” ，可以看到返回结果前 3 位都是猫：

如果我们给“猫”加一个颜色约束，来检索 “黑猫” 的话，可以看到确实返回结果是黑色的猫：

我们进一步对检索词加强约束，改为 “黑猫在床上”，返回结果中含有黑色猫爬在床上的图片：

在上述示例中，我们对猫进行了颜色以及场景修饰后，依然可以通过以文搜图系统找到相关图片。

结束语

前沿预训练技术打通不同模态之间的语义鸿沟，而 HuggingFace 社区又极大的降低开发人员使用预训练模型的成本，再结合我们提供的 MetaSpore 线上推理和线上微服务的技术生态，预训练模型不再停留于离线的浅尝辄止，而是可以真正实现从前沿技术到工业场景的端到端落地，充分释放预训练大模型的红利！未来我们会不断完善优化 MetaSpore 技术生态：
1.更自动化、更广泛的接入 HuggingFace 社区生态，近期我们会发布一套通用模型上线机制，使得 HuggingFace 生态接入更为方便，同时后续会把预处理服务集成到在线服务中；
2.多模态检索离线算法优化，针对多模态检索场景，我们会持续迭代优化离线算法组件，包含文本召回/排序模型，图文召回/排序模型等，提升检索算法的精度和效率。

本文中相关的代码、参考文档，请访问链接：http://github.com/meta-soul/MetaSpore/blob/main/demo/multimodal/online/README-CN.md
部分图片来源：
https://github.com/openai/CLIP/raw/main/CLIP.png
https://www.sbert.net/examples/training/sts/README.html

官方资料
GitHub：

LakeSou: https://github.com/meta-soul/LakeSoul

MetaSpore: https://github.com/meta-soul/MetaSpore

官网：元灵数智-云原生一站式数据智能平台-北京数元灵科技有限公司 (dmetasoul.com)

官方交流群：微信群：关注公众号，点击“了解我们-用户交流”或扫描下方二维码

Slack：https://join.slack.com/t/dmetasoul-user/shared_invite/zt-1681xagg3-4YouyW0Y4wfhPnvji~OwFg

DeepSeek的无限可能：探索前沿AI技术在多领域的应用编码追梦人 AI人工智能人工智能
引言2023年，全球人工智能产业规模突破万亿美元大关，一场以深度学习为核心的技术革命正以前所未有的速度重构人类社会的运行逻辑。在这场变革的浪潮中，中国AI企业深度求索（DeepSeek）以其独特的“问题驱动型”技术路径，悄然构建起覆盖科研、医疗、金融、教育等领域的智能生态系统。第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep
python 快速排名发包_2019年SEO快速排名发包技术及原理 - 立金哥 weixin_39643336 python 快速排名发包
百度的惊雷算法明确的说到了禁止点击排名，对点击作弊大力度的打击。但依然有不少的商家在做这类快速排名的服务，2019年SEO快速排名发包技术及原来又是怎么样来实现的呢？打击恶意点击及快速排名目前最有效果的助力网站排名的方法有两种，分别为权重转移法和点击效果法。什么是SEO快速排名发包技术？可能对于只做正规白帽手法的朋友来说，听都没听过，又或许听过但仅仅是了解却不深入。所以接下来，虎纠自媒体给大家介绍
DeepSeek-R1驱动下一代AIGC安全：全面解析智能内容合规审查技术体系与实战案例 Coderabo DeepSeek R1模型企业级应用 AIGC 安全
DeepSeek-R1赋能AIGC内容合规审查：技术实践与案例解析一、AIGC内容合规审查技术架构（此处展开约1500字的技术原理说明，涵盖深度学习模型、规则引擎、多模态检测等核心组件）二、核心实施步骤与代码实现1.文本内容预处理模块importrefromdeepseek_nlpimportTextCleanerdeftext_preprocessing(text):#特殊字符过滤cleaner
机器学习基本库之Pandas 莫名其妙 pandas 机器学习 python 数据分析
Pandas是机器学习中专门用于数据处理的库，遇到很多数据时首先要使用Pandas进行预处理得到我们想要的信息，下面让我们来看一下Pandas中有哪些操作importpandasfood_info=pandas.read_csv("food_info.csv")#将csv文件中的数据进行读取print(type(food_info))#pandas中的核心结构叫做DATAFRAMEprint(fo
DeepSeek模型实战：从理论到应用的深度探索 CodeJourney. 人工智能算法数据库
一、引言在人工智能快速发展的当下，大型语言模型已成为自然语言处理领域的核心力量。DeepSeek模型作为其中的佼佼者，凭借其先进的架构和强大的性能，吸引了众多开发者和研究人员的关注。本文将深入探讨DeepSeek模型的技术原理，并通过实际案例展示其在不同场景下的应用，为读者提供从理论到实践的全面指导。二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构
字节跳动AI编程神器Trae深度解读与使用研究 LCG元大模型 AI编程
一、引言在软件开发领域，编程工具的效率和智能化程度对开发者的工作成效有着深远影响。随着人工智能技术的飞速发展，AI编程工具应运而生，为开发者带来了全新的编程体验和更高的效率提升潜力。字节跳动于2025年1月19日正式发布的AI编程工具Trae，凭借其独特的功能设计和对中文开发者需求的深入理解，在开发者社区中引起了广泛关注。本研究将对Trae进行全面解读，并详细介绍其使用方法，旨在帮助开发者深入了解
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
DeepSeek系列模型：高效能推理与多模态处理的技术突破与实践路径张3蜂人工智能开源技术选型人工智能开源机器人
目录引言一、高效能推理的核心技术路径二、多模态处理的技术创新三、技术协同与落地实践四、未来技术演进方向结论引言背景与挑战AI模型规模化趋势下，推理效率与多模态融合成为关键瓶颈。DeepSeek系列模型的定位：平衡性能、效率与多模态能力的技术创新者。核心命题如何通过架构设计与算法优化实现高效推理？如何突破模态边界实现跨模态语义理解与生成？一、高效能推理的核心技术路径轻量化模型架构设计动态稀疏注意力机
《2025：中国行业新方向与民营企业的使命》晚风る传媒
2025年，中国经济正站在新的历史节点上，科技创新、数字经济、绿色经济等成为发展的核心驱动力。在这样的背景下，2025年民营企业座谈会的召开，无疑为中国未来行业的发展指明了方向。本文将结合座谈会内容，探讨中国未来行业发展的新方向。一、数字经济：创新驱动的核心引擎数字经济已成为全球经济增长的重要引擎，而民营企业在其中扮演着关键角色。2025年，数字经济将继续深化，涵盖云计算、大数据、人工智能、物联网
网络安全：挑战、技术与未来发展一ge科研小菜鸡运维网络运维
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在数字化时代，网络安全（Cybersecurity）已成为全球关注的焦点。随着云计算、大数据、人工智能（AI）、物联网（IoT）等技术的发展，企业和个人的敏感数据在互联网上的流通日益增加，黑客攻击、数据泄露、勒索软件等网络安全威胁也日趋严峻。本文将从网络安全的核心概念、常见攻击手段、防御技术、企业安全策略以及未来发展趋势等方面，深入探讨如
DeepSeek 的创新融合：多行业应用实践探索 ♡喜欢做梦人工智能 deepseek
引言在数字化转型的浪潮中，技术的融合与创新成为推动各行业发展的关键力量。蓝耘平台作为行业内备受瞩目的创新平台，以其强大的资源整合能力和灵活的架构，为企业提供了高效的服务支持。而DeepSeek凭借先进的人工智能技术，在自然语言处理、数据分析等领域展现出卓越的性能。当蓝耘平台与DeepSeek携手，二者的优势互补为多行业解决方案带来了全新的应用实践方向，为企业解决复杂业务问题、提升运营效率提供了强大
CSDN C知道接入DeepSeek-R1满血版，赋能开发者高效智能编程与问题解决 CSDN资讯人工智能
CSDN宣布旗下C知道产品将接入深度求索（DeepSeek）人工智能大模型，通过植入“深度思考模式”，全面升级用户的AI搜索体验，重新定义智能编程场景。“CSDN积极整合行业顶尖技术能力，现已引入以DeepSeek为代表的推理大模型，并与C知道AI搜索产品深度融合，致力于为开发者提供更高效、更智能的技术解决方案与学习辅助工具，助力开发者提升效率、解决技术难题。”CSDN技术负责人表示，持续升级的A
带权重的最近任务安排算法（最近面试策略） WePlayDirty 算法面试数据结构
一个任务j在sj开始，并在fj结束;并且每个任务都有权重。任务相容：任务安排的时间没有重叠目标：找到最大权重，且相容的任务安排#includeusingnamespacestd;typedefstruct{intiStartT;intiFinshT;intiWight;}TASK_INFO;intg_i=0;voidFindSolution(TASK_INFO*schedule,int**comp
算法-队列-买票需要的时间程序员南飞算法数据结构 java 职场和发展 leetcode
力扣题目：2073.买票需要的时间-力扣（LeetCode）有n个人前来排队买票，其中第0人站在队伍最前方，第(n-1)人站在队伍最后方。给你一个下标从0开始的整数数组tickets，数组长度为n，其中第i人想要购买的票数为tickets[i]。每个人买票都需要用掉恰好1秒。一个人一次只能买一张票，如果需要购买更多票，他必须走到队尾重新排队（瞬间发生，不计时间）。如果一个人没有剩下需要买的票，那他
【重温设计模式】模板方法模式及其Java示例万猫学社重温设计模式及其Java实现设计模式模板方法模式 java
模板方法模式的基本概念模板方法模式是一种常见的设计模式，它的名字来源于其核心思想：定义一个操作中的算法的骨架，而将一些步骤延迟到子类中。模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。听起来可能有些抽象，但其实我们在生活中经常会遇到这样的场景。比如，我们在做饭时，通常会有一套固定的流程：洗菜、切菜、炒菜。这个流程就是一个模板，而具体的做法，比如切菜的方式、炒菜的时间等，就是
【机器学习】半监督和无监督极限学习机SS-US-ELM附Matlab代码默默科研仔粉丝福利机器学习人工智能
标题：【机器学习】半监督和无监督极限学习机SS-US-ELM附Matlab代码一、引言1.1研究背景和意义概述研究的背景以及该研究在领域内的重要性。1.2研究现状分析当前领域的研究进展和存在的问题。二、极限学习机（ELM）基本原理2.1ELM的基本模型描述ELM的基本模型结构和工作原理。2.2ELM的学习过程介绍ELM的学习算法和训练过程。三、半监督极限学习机（SS-ELM）3.1SS-ELM的提
阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记饮长安千年月物联网安全安全机器学习学习
前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications智能交通系统（ITS）和计算系统的快速发展为智能交通安全提供了新的科学研究，并提供了舒适和高效的解决方案。人工智能（AI）已被广泛用于优化不同研究领域的传统数据驱动方法
【AI引领潮流|未来智慧生活】国内机器聊天软件推荐（超全！）and人工智能&智能学习熔光人工智能 AI软件智能学习生活
1.AI聊天软件概述1.1AI聊天软件的关键技术1.2AI聊天软件的应用1.3AI聊天软件的挑战1.4总结2.智普清言3.文心一言4.讯飞星火5.知元AI6.白马AI7.ChatGPT8.一览AI应用链接9.人工智能10.机器学习↓个人主页：C_GUIQU↑1.AI聊天软件概述AI聊天软件是一种利用自然语言处理（NLP）、自然语言理解（NLU）和机器学习（ML）技术构建的软件，它能够理解用户的自然
DolphinScheduler环境搭建、服务启动等常见问题及解决方案数据库
ApacheDolphinScheduler作为一款分布式易扩展的工作流调度系统，广泛应用于大数据任务编排。然而，在实际使用中，用户可能会遇到环境搭建、服务启动、工作流执行等问题。本文结合社区文档与用户实践经验，整理以下高频问题及详细解决方案，帮助用户快速定位并解决问题。一、安装与部署问题环境依赖配置错误问题：部署时因缺少JDK、Maven或数据库配置导致失败。解决方案：安装JDK1.8+并配置J
文心快码智能体不断发展，真正与AI协同工作
文心快码(BaiduComate)是基于百度文心大模型，在研发全流程全场景下为开发者提供辅助建议的智能代码助手。结合百度积累多年的编程现场大数据、外部优秀开源数据，可为开发者生成更符合实际研发场景的优秀代码，提升编码效率，释放“十倍”软件生产力。如果您对【文心快码企业版】感兴趣，希望获取更多详细信息，点击进入企业服务咨询我们会尽快安排专业人员与您取得联系！我们期待与您建立联系，为您的企业带来更高效
Jieba分词算法应用 C嘎嘎嵌入式开发算法服务器数据库 c++linux
1.Jieba分词算法简介Jieba是一个用于中文分词的Python库，其核心思想是基于词典和统计模型来进行分词。由于中文文本中没有明显的单词边界，因此分词是中文处理中的一个重要任务。Jieba提供了以下几种主要的分词模式：精确模式：尽可能准确地切分句子，适合用于文本分析。全模式：将句子中所有可能的词语都切分出来，适合用于搜索引擎。搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
DeepSeek的训练与优化流程程序猿000001号 DeepSeek 训练优化
DeepSeek的训练与优化流程一、数据工程体系1.多模态数据融合处理动态数据湖架构：实时摄入互联网文本、科学论文、专利文献、传感器数据等20+数据源日均处理原始数据量达1.2PB，支持200+文件格式自动解析智能清洗流水线：基于大模型的语义去重算法，重复数据识别准确率99.6%创新应用对抗网络生成噪声数据，增强模型鲁棒性专利级数据质量评估体系（DQAS3.0）包含87个质量维度2.知识增强处理结
DeepSeek行业应用实践报告100+份汇总解读|附PDF下载数据挖掘深度学习机器学习算法
原文链接：https://tecdat.cn/?p=40240在当下快速发展的科技浪潮中，人工智能（AI）已成为推动各行业变革的核心力量。AI大模型的出现，更是为众多领域带来了全新的发展机遇与挑战。本报告聚焦于AI大模型中的佼佼者——DeepSeek，通过深度剖析其技术特性、应用场景、市场表现以及未来趋势，为读者呈现一个全面且深入的AI行业发展图景。本报告汇总洞察基于文末157份DeepSeek行
正则化（Regularization）和正则表达式（Regular Expression）区别 Dontla 正则表达式
文章目录1.**正则化（Regularization）**2.**正则表达式（RegularExpression）**关键区别为什么名字相近？正则化（Regularization）和正则表达式（RegularExpression）不是同一个概念，它们是两个完全不同的术语，应用于不同的领域。1.正则化（Regularization）领域：机器学习/统计学。定义：正则化是一种用于防止模型过拟合（Ove
搜广推校招面经十九 Y1nhl 搜广推面经搜索引擎推荐算法 python 求职招聘
快手推荐算法一、1*1的cnn有什么作用？1.1.降维与通道数调整（ChannelReduction）在CNN中，特征图（FeatureMap）通常有多个通道（channels）。1×1卷积可以用于减少通道数，从而降低计算量，提高模型效率。1×1卷积可以增加通道数，以增强特征表达能力。示例代码（PyTorch）：importtorchimporttorch.nnasnnconv1x1=nn.Con
菜鸟的成长之路东风吹破了青花瓷计算机数据结构与算法基础篇入门
菜鸟的成长之路基础能力数据结构与算法数据结构链表数组栈队列字典bitset树堆完全二叉树平衡二叉树二叉查找树B树红黑树lsm树图通用算法排序十种排序算法查找二分查找深度广度优先搜索分治贪心回朔动态规划网络协议OSITCP/IP状态转移拥塞控制可靠工作原理socket编程HTTP/HTTPSIO模型同步IOreactor阻塞IO非阻塞IOIO多路复用信号驱动异步IOC10K问题长链接短链接编译原理l
力扣hot100_矩阵_python版本 Y1nhl 力扣 leetcode 矩阵 python
73.矩阵置零给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。classSolution:defsetZeroes(self,matrix:List[List[int]])->None:m,n=len(matrix),len(matrix[0])row,col=[False]*m,[False]*nforiinrange(m):forjinrange(n
机器学习基本篇胖胖的小肥猫机器学习
1基本概念机器学习，分为回归，分类，聚类，降维有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测无监督学习聚类，降维。题目越多，训练越好，2基本流程数据预处理——模型训练与评估可以优化为获取数据——数据预处理——EDA分析——特征工程——模型训练——可解释性分析2.0数据获取利用kaggle,天池等平台的开源数据，2.1预处理目的：让数据更符合逻辑让数据更容易计算借助函数实现变换
解锁机器学习核心算法 | 支持向量机：机器学习中的分类利刃紫雾凌寒 AI 炼金厂机器学习算法支持向量机 python 深度学习分类人工智能
一、引言在机器学习的庞大算法体系中，有十种算法被广泛认为是最具代表性和实用性的，它们犹如机器学习领域的“十大神器”，各自发挥着独特的作用。这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、降维算法、梯度增强算法。它们涵盖了回归、分类、聚类、降维等多个机器学习任务领域，是众多机器学习应用的基础和核心。而在这十大算法中，支持向量机（Suppor
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$