以沐、

Prompt Learning - 1：继 Fine-Tuning 之后的最新范式不再神秘

本文内容主要参考刘鹏飞博士在 Big Model Meetup 上的报告内容以及其发表的关于 Prompt Learning 的综述论文《Pre-train, Prompt, and Predict A Systematic Survey of Prompting Methods in Natural Language Processing》

Big Model Meetup 报告链接：智源社区活动

论文链接：https://arxiv.org/pdf/2107.13586.pdf

本文目前算法工程师一枚，重点关注预训练语言模型、文本语义相似性检测、命名实体识别、Prompt Learning 领域研究，后续会陆续更新更多文章，欢迎关注 ^_^

如果对于本文章的内容存在疑问或问题，欢迎留言或发邮件，看到后会第一时间回复，Email：[email protected]

1. 什么是 Prompt？

在过去很长一段时间，预训练模型均是采用的 Pretrain+Fine-Tuning 的方式来适配下游任务，但是采用这种方式所带来的问题是对于每一项下游任务来说，都需要重新 Fine-Tune 一个新的模型，且具体任务的模型之间无法共用，这对于预训练语言模型来说，相当于对于每一个任务都进行了定制化，十分低效；而 Prompt Tuning 则是一种新的训练模式，即可以将预训练模型看做是电源，不同的下游任务则相当于用电器，此时依据下游任务的不同，只需要为预训练模型插入不同的插座(下游任务特定的 Prompt 参数)，即可使预训练模型适配下游任务；

上述 Prompt Tuning 的方式极大地提升了预训练模型的使用效率，如下图所示：

左侧的图表示基于 Pretrain+Fine-Tuning 的训练范式，即对于不同的下游任务来说，均需要训练不同的模型，每个任务都会有一套完全独立的模型参数，任务模型之间相互独立；
右侧的图表示基于 Prompt Tuning 的训练范式，即对于不同的任务来说，只需要插入不同的 Prompt 参数，在训练期间可以灵活选择是否对预训练语言模型的参数进行调整，可以极大地缩短训练时间，提升模型使用率；

所谓 Prompt，从字面意思上来讲翻译为 “提示”，联想人类的思维过程，假如我们某一天忘记了某件事情，如果此时能够得到某种特定的提示，就可以轻松想起来对应的事情，比如给出我们提示 “白日依山尽”，我们自然而然的就会联想到下一句 “黄河入海流”；再比如，我们玩儿 “你画我猜” 这样的游戏，假如直接让我们猜一幅画，这对于我们来说很困难，但是如果给出别人画的提示呢？如果再进一步给出一个与这幅画相关的提示词呢？是不是就变得越来越容易啦？

那么在 NLP 的领域研究中，Prompt 就是指根据输入文本，给予预训练语言模型一个任务相关的线索或提示，以帮助模型能够更好的理解或记忆特定的人类问题；比如，BERT、BART、ERINE 均为近些年饱受关注的预训练模型，其对于某些特定的人类问题，根据给出的线索均可以给出正确的答案，如下图所示：

在上图的示例中，根据提示，BERT 可以准确的给出答案： JDK 是由 Oracle 研发的；根据 TL;DR: 提示，BART 可以知道当前任务需要给出文章的摘要信息，另外，根据提示 ERINE 可以知道当前 Query 想问的是鸟类的能力；

除了上述较为形象的表述之外，Prompt 更加严谨的表述方式如下：

Prompt is the technique of making better use of the knowledge from the pre-trained model by adding additional texts to the input.

即通过为输入内容添加额外的文本(重新定义任务)的方式，来更好的挖掘预训练语言模型本身能力的一种方法；

2. Prompt 工作流

通常来说，Prompt Tuning 的工作流主要分为四个部分：模板构造、答案空间映射关系构造、将输入带入至模板并预测、预测结果映射；以情感分析任务为例，Prompt Tuning 的不同工作模块如下图所示：

上图展示了在情感分析任务中，Prompt Tuning 范式在情感分析任务中的具体工作模块，下面将会将各个模块拆解进行说明：

2.1 Prompt 模板构造

在进行 Prompt 之前，需要先为下游任务构造一个模板(Template)，其作用主要是对输入和输出进行重新构造，使其变成一个新的、带有 mask slots 的文本，即对应的模板中带有 2 处填入的 slots：[x] 和 [z]，其中 [x] 位置用来填入输入文本，[z] 位置则用来填入预训练语言模型预测的结果；

例如，在电影评论分析任务中，输入 x = “我喜欢这个电影”，模板就可以定义为：“[x] 总而言之，它是一个 [z] 电影”，将输入 x 带入上述模板，即可得到 “我喜欢这个电影，总而言之，它是一个 [z] 电影”，如下图所示：

2.2 Prompt 答案空间映射关系构造

在利用 Prompt Tuning 的手段执行特定的下游任务过程中，任务的标签空间是固定的，而预训练语言模型预测的空间更大，但也不可能定义 [z] 位置的预测结果是任意词，所以需要一个映射关系将模型在位置 [z] 得到的预测结果和任务的标签集合联系起来，比如在上述情感分析任务中，任务的标签集合为：”positive” 和 “negative”，此时即可定义模型的输出结果和标签集合存在映射关系：”fantastic → positive”，”boring → negative”；当然，这里的映射关系也可以是多对一的，如下图所示：

2.3 利用预训练模型预测结果

针对下游任务定义完 Template 和答案映射关系后，即可选择合适的预训练语言模型对 [z] 位置的词汇进行预测，比如在下图的例子中，模型给出的结果为 “fantastic”，此时将这一结果带入 [z] 位置；

2.4 预测结果映射

在这一步骤中，需要根据第二步中定义的映射关系，将预训练语言模型给出的预测结果映射回对应的任务标签，即在上面的例子中，将预训练模型预测的结果 “fantastic” 映射回任务集合中的 “positive” 标签；

总体来说，在 Prompt Learning 的过程中，总共包含如下信息：

3. 关于 Prompt Tuning 比 Fine Tuning 更加繁琐的讨论

针对这一问题，实际情况是，Fine-Tuning 范式无需使用任何人工特征构造过程，即特征工程；而 Prompt-based 方法无疑是增加了许多人工参与的过程，回顾 Prompt Learning 的整个过程，可以发现其需要人工参与的部分主要包括：(1) Template 的构造；(2) Answer 映射关系构造；(3) 预训练模型选择；(4) Prompt 组合问题选择；(5) 训练策略选择；下面将会针对上述各个不同的部分进行独立分析；

3.1 Prompt 模板工程

关于如何构造特定任务的 Template 是 Prompt Learning 是否有效的关键，即便是针对同一种任务，不同的人可能都会构造出不同的 Template 结果，如下图所示：

通常来说，人工构造出来的每一种模板基本都有其合理性，但是在实际使用中，Template 的选择对于 Prompt Learning 而言则起到了巨大的作用，即便是一个 word 的区别，也可能会导致巨大的效果差距，比如在论文 GPT Understands, Too 中，给出了如下实验结果：

从上述结果中，可以发现，即便是对于人类来说完全类似的模板，其作用在 Prompt Tuning 上，最终得到的结果也会具有巨大的差距；所以，Prompt 模板的定义对于 Prompt Learning 的工作至关重要，回顾之前的工作，Template 的设计主要可以从两个角度进行区分：

根据 slot 的位置进行区分

完形填空 (cloze) 模式：即未知的 slot 在 Template 中间等不定位置；

前缀 (prefix) 模式：即未知的 slot 在 Template 开头；

根据是否需要人工指定进行区分

人工指定：即由人工的方式根据下游任务的特点指定对应的 Template；

自动搜索：即无需人工定义，由模型来确定使用的 Template 形式，这种方式又可以分为离散的 Template 和连续的 Template；

3.2 答案空间映射工程

除了上述 Template 工程之外，如何对下游任务的 Label 空间和 Answer 空间进行映射也包含许多不同的方法。比如在上述情感分析任务中，任务的 Label 空间 Y 为 {positive, negative}，Prompt 的答案空间 Z 可以是表示 “positive” 和 “negative” 的词汇，比如：”interestring / fantastic / happy / boring / bad” 等，可以根据任务设计一个 y 对应 1~n 个答案词汇；

如果对答案空间映射方法进行分类，主要可以从如下几个角度进行分类：

根据答案的形状进行分类

1. 从 Token 的粒度进行构建； 2. 从 Span 的粒度进行构建； 3. 从 Sentence 的粒度进行构建；

根据答案的空间是否有界进行分类

1. 有界； 2. 无界；

根据是否有人工参与进行分类

1. 人工选择； 2. 自动搜索方法：分为离散空间搜索和连续空间搜索两类；

3.3 预训练模型的选择

在上述步骤定义完模板以及答案空间后，需要选择合适的预训练语言模型对 Prompt 进行预测，如何选择更加合适的预训练语言模型也需要人工经验进行判别，具体来说现有的预训练语言模型主要分为如下五类：

Autoregressive Models，自回归语言模型：代表为 GPT，主要用于生成式任务；
AutoEncoding Models，自编码语言模型：代表为 BERT，主要用于自然语言理解任务；
Seq-to-seq Models，端到端语言模型：代表为 BART、MASS，即序列到序列的结构，模型同时包含 Encoder 和 Decoder 结构，主要用于基于条件的生成式任务，如机器翻译、自动摘要生成等；
MultiModal Models：即多模态模型；
retrieval-based Models：基于召回的语言模型，主要用于开放域问答任务；

3.4 范式拓展

这部分的工作主要是探讨如何对已有的 Prompt 进行任务增强及拓展，具体可以从如下几个方面进行探讨：

Prompt Ensemble：Prompt 集成方法，即采用多种方式询问同一种问题，如下图 (a) 所示；
Prompt Augmentation：Prompt 增强方法，即采用类似的 Prompt 增强当前的 Prompt，如下图 (b) 所示；
Prompt Composition：Prompt 组合方法，比如多个任务组合为一个Prompt，如下图 (c) 所示；
Prompt Decomposition：Prompt 拆分方法，即将一个 Prompt 拆分为多个 Prompt，假如判别两个实体之间是否为父子关系，首先对于当前输入的每一个实体使用 Prompt 方法判定是否为人物，然后再进行实体关系预测，如下图 (d) 所示；

3.5 Prompt 的训练策略选择

在 Prompt Tuning 的训练过程中，具有多种不同的训练策略，比如可以根据训练数据的多少分为三类：

Zero-shot Learning：即对于下游任务来说，没有任何训练数据；
Few-shot Learning：对于下游任务来说只有很少的训练数据，比如只有 100 条；
Full-data Learning：下游任务有很多训练数据；

除了上述分类方式之外，也可以根据参数更新的方式进行分类，即在 Prompt-based 模型中，主要分为两大块：预训练模型和Prompt参数，这两大部分均可以独立的训练参数，比如对于预训练模型来说，可以选择优化参数或不优化，再或者对于 Prompt 参数来说，可以是没有 Prompt 参数、固定的离散字符的 Prompt(无参数)、使用训练好的 Prompt 参数(不再优化Prompt参数)、继续训练 Prompt 参数，这一体系的分类如下图所示：

上述训练策略均可以两两进行组合，从而形成各种不同的参数优化策略，比如：

Prompt-Less Fine-Tuning：即只有预训练模型，没有 Prompt 参数，在模型的训练过程中对预训练模型的参数进行 Fine-Tuning，即属于 BERT 的常规使用；
Fixed-Prompt Tuning：这种方式包括两种组合形式，即在训练的过程中 Fine-Tuning 预训练模型的参数，然后 Prompt 的部分引入离散的固定 Prompt 或引入连续训练好的固定 Prompt 参数；
Prompt + LM Fine-Tuning：即在训练的过程中 Fine-Tuning 预训练模型的参数并且 Prompt 部分的参数也同样进行更新；
Adapter Tuning：即在训练的过程中固定住预训练模型的参数，并且不引入 Prompt 参数，只是插入 task-specific 模块到预训练模型中；
Tuning-free Prompting：同样包含两种组合形式，即使用固定住的预训练模型参数并引入离散的固定 Prompt 或引入连续训练好的固定 Prompt 参数；
Fix-LM Prompt Tuning：即使用固定住的预训练模型参数以及可训练的 Prompt 参数；

对于不同的策略来说，需要进行不同的选择，一般需要考虑如下两点：

数据量级的大小；
是否有一个超大的 left-to-right 语言模型

即如果有很少的训练数据，一般来说我们希望不要 Fine-Tuning 预训练语言模型，而是使用超强的 LM 能力来调整 Prompt 参数；当数据量比较多的时候，则可以去精调语言模型；

4. Prompt 的优势

Prompt Learning 的优势主要可以从四个角度进行分析，即：1. Prompt Learning 的角度；2. Prompt Learning 和 Fine-Tuning 的区别；3. 现代 NLP 历史； 4. 超越 NLP 的角度；

4.1 Prompt Learning 的角度：使所有下游任务统一为一个语言模型问题

Prompt Learning 范式可以将几乎所有的下游任务均统一为预训练语言模型任务，从而避免了预训练模型和下游任务之间存在的 gap，几乎所有的下游 NLP 任务均可以使用，不需要训练数据，在小样本数据集的基础上也可以取得超越 Fine-Tuning 的效果，使得所有任务在使用方法上变得更加一致；

4.2 Prompt Learning 和 Fine-Tuning 方法的区别

Fine-Tuning 的方法使得预训练语言模型更加适配特定的下游任务，即可以理解为预训练模型向下游任务靠拢的过程；
Prompt Learning 可以理解为一种下游任务的重定义方法，即可以更好的利用预训练模型的能力，使得下游任务更加贴近于语言模型；

4.3 现代 NLP 的历史角度

Prompt Learning 的方法可以作为现代 NLP 领域的第四范式，四种范式包括：

1. 基于特征工程的传统模型：即使用文本特征，比如词性、长度等，使用机器学习的方法进行模型训练；

2. 基于神经网络的模型：即基于预训练的词向量特征，利用神经网络模型，在下游任务数据的基础上进行模型训练；

3. 基于预训练模型的 Fine-Tuning 模型：即在预训练模型的基础上，在下游任务数据的基础上对模型参数进行微调训练；

4. 基于 Prompt 的模型：直接根据下游任务设计 Prompt，辅助以特定的预训练模型，拉进下游任务和预训练模型之间的 gap；

即在上述范式中，预训练语言模型和下游任务之间的距离变得越来越近，直到最终的 Prompt 方法令下游任务完全利用预训练语言模型的能力；

4.4 从超越 NLP 领域的角度

Prompt Learning 方法可以作为连接多模态的一个契机，比如 CLIP 模型，连接了文本和图像，相信在未来还可以连接声音和视频；

5. 参考文献

[1] Language models as knowledge bases?, In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP);

[2] Template-based named entity recognition using bart, Leyang Cui, Yu Wu, Jian Liu, Sen Yang, and Yue Zhang. 2021.

[3] Prefix-tuning: Optimizing continuous prompts for generation, Xiang Lisa Li and Percy Liang. 2021.

[4] PromptTuning：The power of scale for parameter-efficient prompt tuning, Brian Lester, Rami Al-Rfou, and Noah Constant. 2021.

[5] GPT-3：Language models are few-shot learners, Tom B Brown, Benjamin Mann, Nick Ryder, etc. 2020.

[6] AdvTrigger：Universal adversarial triggers for attacking and analyzing NLP, Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, and Sameer Singh. 2019a.

[7] AutoPrompt：Eliciting knowledge from language models with automatically generated prompts, Taylor Shin, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, and Sameer Singh. 2020.

[8] Warp: Word-level adversarial reprogramming, Karen Hambardzumyan, Hrant Khachatrian, and Jonathan May. 2021.

[9] It’s not just size that matters: Small language models are also few-shot learners, Timo Schick and Hinrich Schu ̈tze. 2021b.

[10] X-FACTR：Multilingual factual knowledge retrieval from pretrained language models, Zhengbao Jiang, Antonios Anastasopoulos, Jun Araki, Haibo Ding, and Graham Neubig. 2020a.

[11] Exploiting cloze questions for few shot text classification and natural language inference, Timo Schick and Hinrich Schu ̈tze. 2021a.

[12] Making pre-trained language models better few-shot learners, Tianyu Gao, Adam Fisch, and Danqi Chen. 2021.

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MacOS 终端(Terminal)配置显示日期时间 qifengle2014 macos ssh python java
效果1、判断当前设备终端是bash还是zshecho$SHELL结果如果是/bin/bash或/usr/local/bin/bash→bash结果如果是/bin/zsh或/usr/local/bin/zsh→zsh2、如果是zsh打开~/.zshrc文件，open-e~/.zshrc是打开文件编辑，也可以vim修改编辑内容，在加入.zshrc以下内容：PROMPT='%F{cyan}%D{%Y-%
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1