小红书技术REDtech

复旦邱锡鹏教授：语言模型即服务的五类应用手段，你了解多少

近年来，深度学习已经成为了 NLP 领域的标配技术，2022年10 月15 日“小红书 REDtech 青年技术沙龙”活动中，我们非常荣幸地邀请到了上海复旦大学计算机学院邱锡鹏教授，邱教授分享了《语言模型即服务与黑箱优化》报告，详细讲解了语言模型越来越大的背景下对于新应用模式的探索。

邱锡鹏：国家优青获得者，于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究，发表 CCF A/B 类论文 70 余篇，获得 ACL 2017 杰出论文奖（CCF A 类）、CCL 2019 最佳论文奖、《中国科学：技术科学》2021 年度高影响力论文奖，有 5 篇论文入选 PaperDigest 发布的 IJCAI/ACL/EMNLP 的最有影响力论文（被引用数进入前当届会议的 20 名）。出版开源专著《神经网络与深度学习》，Github 关注数 1.5 万，豆瓣评分 9.4 分。主持开发了开源框架 FudanNLP 和 FastNLP，已被国内外数百家单位使用。2015 年入选首届中国科协青年人才托举工程项目，2018 年获钱伟长中文信息处理科学技术奖青年创新奖一等奖，2020 获第四届上海高校青年教师教学竞赛优等奖，2021 年获首届上海市计算机学会教学成果奖一等奖（第一完成人）等。培养学生多次获得一级学会优博、微软学者、百度奖学金等。

以下内容根据邱教授现场报告整理

背景

在预训练时代，我们大部分的研究工作分两个大类别：上游如何做模型的预训练，下游如何做精调，也就是把预训练模型迁移到下游任务。在上游有很多的公司主导如 Open AI、Google 等，他们把大模型做得非常大，显示出很多很优秀的能力如 Few-shot 小样本的能力。在参数的数量级上升之后，小样本的学习能力就变得非常强，这就是大家还是在不停地让这个模型变得越来越大的原因。

但是随着模型越来越大，这种预训练加精调的模式变得不可行了，一方面上游制造大模型的公司不愿意把它开源，另一方面下游的应用厂商也不太可能把它下载下来，即使下载也很难有资源运行。

所以我们要追求一种新的应用模式。比如以 GPT 为代表提出来的 in-context learning（在上下文中学习），给预训练模型输入一些提示或者例子，让原模型根据这些例子在下游任务上进行适配，它的效果也非常好，以 GPT-3 为例的一些模型表现得非常惊艳。in-context learning 成为我们在这个领域上研究的重点。

Language-Model-as-a-Service

语言模型即服务

如果模型是部署在服务端的，相当于把语言模型做成一个服务，我们就提出了“语言模型即服务”的概念。语言模型即服务事实上已经是一个很成熟的应用了，有很多的应用也都是基于语言模型即服务的能力。像 GPT-3 开发的一些下游的服务——我们可以用 GPT-3 生成一个网页按钮，用它把自然语言转化成数学公式等等。

在语言模型即服务中我们会存在两个挑战：

服务的原模型是什么？
如何把它适配到下游任务当中？

United Foundation Model

统一的预训练模型的目标是用一个模型来适配所有的自然语言处理任务，比如我们预训练一个模型，让它既能够支持理解任务，也可以支持生成任务。

CPT：一种非对称的预训练 Transformer

在传统的预训练模型上有几类代表，如以 BERT 为例的理解模型，GPT 为代表的生成模型，还有 BART。那么能不能把它们汇总到一起呢？我们提出了一个新的模型 CPT，它的核心思想就是将理解任务和生成任务合并到一起，比如我们把 BERT 和 BART 合并到一起的时候，发现都需要一个共同的编码器，共享编码器后我们得到如下图这种形状。

它同样是 Transformer 的 Encoder-Decoder 架构，但其左边可以用来做理解，右边可以做生成，在很多中文预训练任务上都能够达到目前最好的效果，同时非对称的 Transformer 的 Encoder-Decoder 架构，也使其生成效率提升了2倍以上。

Seq2Seq Masked Language Modeling

目前，自然语言处理当中，能够支持非常多任务类型的语言模型方式就是序列到序列模型，一个典型的代表就是 T5，它可以把很多的自然语言处理任务都转化成为序列到序列的形式。如果可以这样转化，我们的后台去部署一个这样序列到序列的基础模型，就可以用来支持下游任务了。

Text-to-Text Transfer Transformer (T5)

但是用 T5 处理自然语言处理任务时依然是非常有挑战性的，在更多的应用当中，一些任务通常来讲是比较难以转化的。比如 ABSA（在自然语言处理方面级的情感分析）。这里给出一句话 “Drink are always well made”，其中有一个评价对象，还有一个评价词以及他的情感倾向，这些都需要从这个句子中抽取出来。

事实上，ABSA 任务又分为很多的子任务，不同的子任务用于处理不同的情况。比如说像 a1 这个任务就是只抽取方面词，还有 o1 这个任务只抽取评价词，不同任务的形式都不一样，所以到目前为止没有一个模型能够同时支持在 ABSA 任务里面所有的子任务。

Seven ABSA subtasks

那么能不能用生成序列到序列模型的方式来同时处理7个子任务呢，事实上这个模型也非常简单，我们可以把 ABSA 任务做一个序列生成任务，把它变成一个抽取对象的序列下标的生成，比如说我们要抽取 aspect term “wine list”，我们只需要输出它的起始位置 1，还有它的结束位置 2，再抽 “service”，也是开始位置和结束位置，即 “12, 12”，以序列的方式把它的位置生成出来即可。

ABSA as Sequence Generation

对于三元组的任务，就生成“wine list” 1, 2，再生成对应的 Opinion “interesting”，再生成它的情感倾向，这样我们就把 ABSA 用统一的序列到序列的形式重新形式化，此时我们就可以用一个模型来支持所有的7个子任务，它统一框架就变得非常简单，用一个 BART 的 Encoder-Decoder 就能够去处理了。这个工作不但形式简单，用一个技术模型就做了所有的子任务，同时也得益于这些预训练模型，效果也比其他分开完成的方式更好。

Overall Architecture

同样我们把这个想法也用到 NER（命名实体识别）上，NER也是在自然语言处理中非常重要的一类任务。在 NER 里有非常的多的子任务：

有连续的 NER：NER 中的词是连续出现的；

还有是嵌入的 NER：在一个实体里面嵌套另外一个实体；

以及不连续的 NER：一个实体可能是不连续的在正文出现。

传统解决方式是采用不同的算法来完成，比如连续的 NER 就会用序列标注，不连续的 NER 基本上利用转移方法。

Three kinds of NER tasks

序列标注很难处理不连续的 NER，所以这些方法之间不通用，我们也可以用序列到序列的方法将 3 种 NER 的子任务做一个统一，同样类似于 ABSA 中的做法。

我们把 NER 生成出来，比如要抽取 “muscle pain”，我们就生成它对应的位置，然后再生成它对应的实体的类型即可。同样也可以用基础的 BART Encoder-Decoder ，这样它就可以非常方便地去做各种不同类型的 NER。这种方式效果也非常好，目前在主流的 NER 数据集上都能达到非常好的效果。

Efficient Tuning Algorithm

有了基础的统一预训练模型之后，我们怎么更加有效地把它迁移到下游的各种不同任务上呢？这里就分了很多种方式：

-Tuning（标签调适）

对于一个预训练模型，输入一个句子时，我们先去提取它的 Feature 构成 Feature Space（特征空间），再把 Feature Space 做参数调节，向 Label Space（标签空间）去做映射，这就是传统的 Fine tuning。由于特征空间和参数空间非常大，这个工作通常需要大量的数据去做调节。

我们能不能想另外一个方法呢？是否可以把 Feature Space 固定，而去调 Label Space，把标签空间向特征空间靠拢？我们通常用 “y” 来表示标签，所以把这个方法叫做 “-Tuning”。

这个方法来自于我们更早之前的一个工作，这个工作可以将文本任务转化成文本匹配任务。传统的文本分配是给你一个句子输入它的标签，此时我们其实并没有太去利用标签的信息，比如说这个标签我们可以用一句话来描述的话，我们就可以把分类任务变成一个文本匹配任务，看这个句子和这个标签有没有进行相互的匹配。通过这种泛式的转变，我们就可以非常轻松的去提升文本分类的性能。

“-Tuning” 也是类似这种考虑。我们将标签或者是标签的表述作为输入，就构造如图架构，左边是预训练模型，其参数是固定不动的，只用来提取 Feature，右边输入一些标签，也就是 “”，同时还有一个 Task token，Task token 用来最后去指出最终的标签是哪一个，它也经过一个Transformer 的架构，类似于一个 Encoder-Decoder 的架构，只不过左端是不做调整的，我们只需要调右端的参数。右端的规模通常比较小，所以它的效率是非常高的。

在架构上，“-Tuning”区别于“Fine-Tuning”, “Adapter-Tuning”, “Prompt-Tuning”,不需要计算 PTM 本身的梯度，所以其优化效率非常高。

在一些通用的语言理解数据集上，“-Tuning” 都能比像 “P-Tuning”, “Fix-Tuning” 效果要好。当然和 “Fine-tuning” 还有一定的差距，有很大的改进空间。

“-Tuning” 最大的优点就是训练效率特别高。它不需要计算预训练模型的梯度，所以首先在内存上会有很大的节省，节省的这些内存我们完全可以增大 Bech 之类的东西，进一步提升 “-Tuning” 的效率。

Black-Box Tuning

除了 “-Tuning” 之外，能不能依然调一些参数，但是同样不需要计算梯度，是否能达到这样的效果？

这就是 Black-Box Tuning（黑箱优化），黑箱优化的整体思想是这样的，我们把一个预训练模型部署在服务器端，把它当成一个黑盒子，它只提供前项的计算，我们还可以通过增加一些 Adapt、Prompt 去调节，把它适配到不同的任务上。

通常像 Prompt tuning 的方法，需要通过大模型计算梯度，再通过梯度调节 Prompt 参数，对于这些大模型部署在服务器上如 GBT，是不可行的。我们希望把预训练模型看成一个黑箱，去寻找一个 Prompt，使得它在下游任务上的效果最好。一旦我们不能获得这个梯度，其实就把它转变成一个黑箱优化问题，或者是无梯度优化问题。在早期工作或优化工作中我们找到了一些有效的无梯度优化方法，但是它仅在低维空间比较有效，在高维空间由于搜索空间非常大，目前来讲还是非常低效。

特别对于大模型来讲，即便是 Prompt，它的参数也非常大。比如说 50 个 Prompt token，每个有 1000 维的话就是 5 万个参数，5 万个参数空间是非常大的。怎样把它在低维空间有效的无梯度优化用到高维空间呢，这是一个挑战。

所幸的是在高维空间中不是所有的参数都等同重要，比如神经网络中也有很多参数都是冗余的，有些参数并不是那么重要，因此在这么多的参数空间中，是不是可以发现这些 Prompt 或者是大模型的本征维度，它的本真维度可能在非常低维度的空间。我们在低维的本真维度空间去优化这个 Prompt，用无梯度的方法达到很好的效果。

基本框架如下图，首先我们把 Prompt 映射到低维空间，在低维空间中用无梯度优化的方法优化，完成之后再把它映射回去，这样可以通过无梯度优化的方法去优化大模型，并且把它适配到下游任务上。

Black-Box Tuning

在比如 Few-shot 这些任务上，Black-Box Tuning 基本可以追平基于梯度的方法，但是有一个缺点，我们的 Prompt 最好 Pre-train 一下。通过 Black-box 我们验证了可以用无梯度的方法进行大规模预训练模型的调参，但是依然存在缺陷，它的 Prompt 调起来依然非常困难，并且需要预训练。

我们能不能把技术进一步改善呢？我们就提出了第二个版本 BBTv2，在这个版本当中我们做了一些改进，我们不需要做 Prompt 的预训练，同时改进随机投影的方法，并且采用 Deep prompt，每一层都加一些 Prompt。事实证明这些策略是有效的。

我们可以看到，经过这样一些改进之后，BBTv2 在比如一万个可调参数的情况下，它达到了目前最好的效果，比基于听的方法效果还要好，并且不需要 Pre-train。也就是说对于这些大模型来讲，我们用无梯度方法就能够打败基于梯度的方法，所以这也是这个工作的意义所在，也给将来一些大模型的应用提供了另外一个场景，把大模型部署在服务器端，只用它的 Forword 就行了，我们调参不需要梯度，只需要前项的计算。

Comparable to full model tuning but merely tuning ~10k parameters

Summary

“语言模型即服务”是本文的一个主要概念，语言模型即服务的应用手段，大概分成五类：

Text prompt：

可以人工设计一些基于文本的 Prompt，但是变成了特征工程问题，需要工程师不断去试，相当耗费精力。

In-context learing：

目前来讲 In-context learing 在 GPT 实验上是非常有效的，但在其他模型上还需要一定的验证，但是它是非常有前景的方向，其中的问题也非常值得大家去研究。

Data generation：

我们用大模型去生成一些数据，再用这些数据训练一个更小的模型，这也是一种方法。

Black-box optimization：

即上文所述的 Black-box tuning。

Feature-based-learning：

我们把预训练模型的输出作为一种 Feature，输入给一些特定的模型。“��-Tuning” 就是这种使用。

“Q&A”环节

Q：超大预训练模型语言模型 Large 的模型在工业应用上的可行性是怎样的，像刚刚提到的最近比较火的 Diffusion 模型，或者说其他一些复杂的多模态、预训练模型？

邱锡鹏：据我所知，这些大模型在工业界的应用非常多，比如说在一些终端任务上，特点是一旦有了基础应用，下游都不是问题。现在的主要问题是成本，如何高效的适配以及通过一些模型压缩或者其他方法来提高效率。

Q：生成式实体或者情感抽取应用到工业场景主要会面临什么挑战？

邱锡鹏：这个挑战还是在于，我们这里说的这些方法，其实还是需要大量的训练数据的，在真正的工业场景当中，很多时候标准数据不是那么多，这样的话生成模型不像其他的方法，或者说传统的训练方法效果好。但是我还是坚信随着预训练模型的发展，会有明显的提升。

GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
智能衣橱革命：大语言模型如何成为你的24小时私人造型师？
从清晨通勤的干练西装到约会餐厅的惊艳晚装，从孕期舒适穿搭到面试首印象的决胜战袍，大语言模型正悄然成为我们私人形象顾问。它融合历史时尚数据库、百万用户风格偏好与实时场景分析，在你输入“重要会议穿什么”的瞬间，便为你构建出专属着装方案——古典智慧与未来科技在指尖碰撞。导言：衣装，无声的宣言与永恒的困惑“衣裳常常显示人品”——莎士比亚在《哈姆雷特》中的箴言，穿越时空，道破了着装亘古不变的力量。衣装，这层
ChatGPT如何实现文字分类？精选案例和最佳实践山城程序员
ChatGPT是一种预训练语言模型，通常用于生成自然语言文本。但是，在将其应用于分类任务时，它也可以表现出色。本文将介绍如何使用ChatGPT实现文本分类，并提供实践步骤和示例代码。1.数据准备在进行文本分类之前，您需要选择一个合适的数据集并对其进行清理和预处理。确保您的数据集包含带有标签的文本数据。例如，您可能拥有一些产品评论，并且需要将它们分类为积极或消极。以下是一个示例代码，演示如何加载数据
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
谷歌引入开源全栈 AI 代理栈：借助 Gemini 2.5 和 LangGraph 实现多步网络搜索、反思与综合
对话式AI已迅速从基础聊天机器人框架中发展起来。然而，大多数大型语言模型（LLM）仍存在一个关键限制——它们仅依据静态训练数据生成回复，缺乏自我识别知识空白或执行实时信息综合的能力。因此，这些模型常常给出不完整或过时的答案，尤其在涉及不断演变或小众话题时。为解决这些问题，AI代理必须超越被动查询。它们需要识别信息空白，执行自主网络搜索，验证结果，并完善回复——有效模仿人类研究助手的工作方式。谷歌与
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
【提示词优化技巧】利用大模型进行提示词自优化 weixin_37763484 大模型人工智能
看到一篇帖子，里面记录了如下的提示词优化技术，我使用ai进行了解读。整体来看，这个方法非常合理，能减少人工干预，值得试一试。原始方法如下：1.主题：构建高效Prompt的系统化流程：一种元提示工程方法在与大型语言模型（LLM）的交互中，提示词（Prompt）的质量直接决定了输出的上限。传统的Prompt撰写高度依赖工程师的经验和直觉，缺乏一套系统化的构建与优化流程，导致效率瓶颈和质量波动。本文提出
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
大语言模型：人像摄影的“达芬奇转世”？——从算法解析到光影重塑的智能摄影革命黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
导言在摄影术诞生之初，达芬奇或许无法想象，他对于光影、比例和解剖的严谨研究，会在数百年后以另一种形式重生。今天，当摄影师面对复杂的光线环境或苦苦寻找最佳构图时，一位由代码构筑的“光影军师”正悄然降临——大语言模型（LLM）正以前所未有的方式，重塑人像摄影的创作边界。解构经典：大语言模型如何“消化”百年摄影智慧大语言模型并非凭空创造建议，其根基在于对海量摄影知识体系的深度理解与结构化重组。理论内化：
LangChain4j入门：Java开发者的AI应用开发指南半夜偷你家裤衩子 LangChain4j java 人工智能开发语言 LangChain4j
在AI浪潮席卷全球的今天，Java开发者如何快速上手大语言模型应用开发？LangChain4j为我们提供了完美的解决方案！前言：为什么Java开发者需要LangChain4j？想象一下，你正在开发一个企业级应用，需要集成ChatGPT来提供智能客服功能。传统方式需要直接调用OpenAIAPI，处理复杂的HTTP请求、错误重试、上下文管理等问题。而使用LangChain4j，几行代码就能搞定：Cha
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
*SFT深度实践指南：从数据构建到模型部署的全流程解析大千AI助手人工智能 Python #OTHER 人工智能深度学习算法大模型 SFT 微调 Lora
一、SFT技术原理与定位核心定义SFT是在预训练语言模型（如LLaMA、GPT）基础上，利用标注数据优化模型以适应特定任务的技术。其本质是通过调整模型参数，将通用语言能力迁移至专业领域（如法律、医疗）或任务（如对话生成、代码补全）。与预训练的区别预训练：使用无标注数据（如维基百科）学习通用表征，消耗千亿级token算力。SFT：使用标注数据（如指令-答案对）进行任务适配，成本仅为预训练的1/100
敏捷开发中的自然语言处理集成项目管理实战手册项目管理最佳实践敏捷流程自然语言处理 easyui ai
敏捷开发中的自然语言处理集成：让代码与需求“说人话”关键词：敏捷开发、自然语言处理（NLP）、用户故事分析、需求自动化、持续集成优化摘要：在敏捷开发中，“快速响应变化”的核心目标常被繁琐的文本处理拖慢——需求文档像“天书”、用户故事靠“脑补”、缺陷报告整理耗时……自然语言处理（NLP）就像一位“智能翻译官”，能让开发团队与需求文档“流畅对话”。本文将用“搭积木”“翻译机”等生活化比喻，带您理解如何
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
【AI论文】EmbRACE-3K: 复杂环境中的具身推理与行为研究
摘要：近期先进的视觉语言模型（Vision-LanguageModels，VLMs）在被动、离线的图像和视频理解任务中展现出了卓越的性能。然而，在具身场景中，这些模型的有效性仍较为有限。具身场景要求在线交互和主动的场景理解，在此类场景中，智能体以第一人称视角感知环境，且每一次动作都会动态地影响后续的观察结果。即便是像GPT-4o、Claude3.5Sonnet和Gemini2.5Pro这样的先进模
6、LangChain —— 使用 Huggingface 中的开源模型 Miyazaki_Hayao LangChain 实战 langchain
文章目录一、概述二、大语言模型发展史三、预训练+微调的模式四、用HuggingFace跑开源模型五、申请使用Meta的Llama2模型六、通过HuggingFace调用Llama七、LangChain和HuggingFace的接口1、通过HuggingFaceHub2、通过HuggingFacePipeline八、用LangChain调用自定义语言模型一、概述大语言模型，不止ChatGPT一种。
迈向大型推理模型：基于大型语言模型的强化推理综述（附教程） LLM大模型人工智能自然语言处理知识库本地化部署吴恩达大模型 RAG
语言长期以来被认为是人类推理的基本工具。大型语言模型（LLM）的突破激发了大量研究兴趣，推动了利用这些模型解决复杂推理任务的探索。研究人员通过引入“思维”这一概念——即一系列代表推理过程中的中间步骤的标记——超越了简单的自回归标记生成。这一创新范式使LLMs能够模仿复杂的人类推理过程，如树搜索和反思性思维。近年来，学习推理的趋势逐渐兴起，强化学习（RL）被应用于训练LLMs掌握推理过程。这种方法通
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d