ZedKingCarry

【论文阅读】Progressive Prompts: Continual Learning for Language Models

论文信息

论文标题

Progressive Prompts: Continual Learning for Language Models

发表刊物

ICLR2023

作者团队

多大、Meta AI

关键词

Continual Learing、LLMs

文章结构

Progressive Prompts

Introduction

Background

Finetuning

Prompt tuning

Continual Learning

Method

Progressive Prompts

Embedding reparameterization

Experimental Setup

Datasets

Baselines

Implementation details

Experimental Results

Results on standard Continual Learning benchmarks

Performance with large number of tasks

Forward transfer experiments

Related Work

Conclusion

引言

研究动机

Progressive Prompts allows forward transfer and resists catastrophic forgetting, without relying on data replay or a large number of task-specific parameters.

任务背景

Intro-P1：

Learning a long sequence of tasks while gaining experience and avoiding forgetting remains a key feature of human-level intelligence.
Although pretrained language models have largely succeeded in learning on a single task, their performance degrades in scenarios where multiple tasks are encountered sequentially, also known as continual learning (CL).
- avoiding catastrophic forgetting, i.e., loss of the knowledge acquired from previous tasks after learning new ones
- allowing forward transfer, i.e., leveraging the knowledge from past tasks for efficient learning of new tasks.

背景的第一段包括三句话。第一句话说明了在human-level层面的智能要求模型能够学习解决一长串儿的任务而不忘记过去任务的能力。第二句话用了转折关系，提出尽管预训练语言模型在解决单一任务上很强，但是在多个任务连续出现时，性能还是会下降，这种学习模型被称为持续学习。第三句话，概括了持续学习的两大挑战：一是避免灾难性遗忘，即模型在学习新的任务后不能忘记如何解决旧任务；二是允许前向转移，即利用过去任务的知识能够快速学习新知识。
第一段之所以这么写，是为了交代研究背景和研究对象，让读者了解我们关心的问题所在，即CF和FT，为第二段介绍传统方法及其优缺点打下基础。

Intro-P2：

Typical CL approaches for language models train a model on all tasks, which ensures forward transfer but also leads to forgetting. These methods use data replay or add regularization constraints, but they still suffer from forgetting due to inevitable changes in parameters shared between tasks.
Other approaches, such as progressive networks, can alleviate catastrophic forgetting completely while supporting forward transfer, but are computationally expensive because they add a new copy of the model for each task. This can be especially intractable for large-scale language models with billions of parameters, which have become a standard in the NLP field.

背景的第二段可分为两部分。第一部分介绍了传统持续学习方法的解决思想。通过在所有任务上都进行训练，传统方法能够做到前向迁移学习能力，但是无法避免灾难性遗忘。这是由于传统方法通过数据复习或者添加正则化限制的方式来减少遗忘，但在不同任务中的模型共享的参数会发生改变，这就难以避免“顾此失彼”的情况发生。第二部分将话题引入到了本文章采用的方法领域，progressive networks 进步网络，一种能够在支持前向迁移能力的前提下还能彻底避免灾难性遗忘的网络。但由于给每个任务复制了一份模型参数，导致开销巨大。所以这种方法也是不可行的，尤其是在数亿参数的大语言模型已经成为NLP领域的基准模型的情况下。
第二段之所以这么写，是为了突出本文工作的重要性。将以前的工作分为A和B两个方向，介绍A的优势和缺点，再介绍B的优势和缺点，与第一段提出CL领域关心的两个问题对应，同时也为下文提出我们自己的方法做铺垫。

Intro-P3：

In this paper, we introduce Progressive Prompts – a novel CL approach for language models that supports forward transfer without forgetting.
Our method is inspired by progressive networks, but is significantly more memory-efficient because it only learns a fixed number of tokens, or prompt, for each new task.
Learning a prompt to adapt language models on a single downstream task was introduced in prompt tuning , and was shown to match the performance of full model finetuning while training <0.01% of the parameters.
In Progressive Prompts, we learn a separate prompt for each incoming task and sequentially concatenate it with previously learned prompts. Importantly, we share input tokens across all tasks and progressively prepend new prompts while keeping previous prompts frozen (see Figure 1).
Our method can: 1) alleviate catastrophic forgetting by preserving the knowledge acquired in previous prompts, and 2) transfer knowledge to future tasks by sequentially learning new prompts given previous ones. We also introduce a new technique for prompt embedding reparameterization. We show that by passing the prompt embeddings through a residual MLP we can stabilize prompt tuning and improve its performance.

凌晓峰教授在《学术研究，你的成功之道》一书中说过，写作是introduction是abstract的扩充版本。摘要里只说一句 “Progressive Prompts learns a new soft prompt for each task and sequentially concatenates it with the previously learned prompts, while keeping the base model frozen.”而在此段中，想表达同样的意思却用了5句话。第一句总说，介绍了我们提出的方法Progressive Prompts及其优势（FT+wCF），与前面提到的CL两个核心问题相照应。第二句话强调了工作的创新性，也就是说虽然进步网络不是我原创工作，但是我们对其进行了改进，只学习固定数量的tokens或叫prompt，而不是针对每个任务，这对内存开销是个重大的优化。第三句说明了prompt tuning 是较为流行的方法，以加强我们提出的这种方法的可行性。第四句话则是详细地说明了我们提出的网络是如何实现的，对每个即将来到的任务都用一个prompt与之对应，然后将不同的prompt先后拼接在一起。还强调了，在逐步拼接的过程中保持先前的tokens保持不变。这个思想也很直接，就是用不同的token表示解决不同任务的能力，新任务来了就学习解决新任务的能力，而将以前的token固定住就是想让模型不改变模型解决过去任务的能力，以缓解灾难性遗忘。此外，作者还利用了残差MLP来提高prompt tuning 的稳定性和表现。值得一提的是，作者在论文中将模型主图放在了第一段的这个位置，通过对比传统的进步网络和基于prompts的进步网络来让读者进一步理解本文的方法。与对比自己的工作是将主图放在正文的第三部分即Method部分，这两种放置图片的位置会对读者理解的效果带来哪些不同，大家可以自己思考体会一下。

Intro-P4:

We run extensive experiments on standard CL benchmarks for text classification, and show that Progressive Prompts outperforms state-of-the-art approaches on both BERT and T5 architectures. We show over 20% improvement over the current SOTA for T5 model.
Furthermore, we run experiments on a more challenging CL setup with longer task sequences, and show that our method outperforms prior approaches for T5 and BERT architectures.
Our main contributions in this paper are as follows:
- We propose a novel CL approach, Progressive Prompts, that alleviates catastrophic forgetting and supports knowledge transfer to future tasks – all while learning < 0.1% of the total parameters.
- Progressive Prompts is suitable for any transformer-based architecture. We show that it significantly outperforms prior SOTA methods on standard CL benchmarks for both BERT and T5 models.
- We propose a more challenging CL setup encompassing 15 text classification tasks and show that our method significantly outperforms prior methods.

在实验环节，本文的实验环节还是非常sound的。数据集上分为（1）传统CL benchmark，包括5个文本分类任务，还根据不同模型（Bert、T5）设置了不同的任务出现的顺序；（2）大量任务。传统CL任务往往是3-5个任务以不同顺序进行，任务数量太少，相比于真实的CL环境差距较大。因此，本文构建了一个15个文本分类任务的benchmark。（3）迁移学习实验。将实验分为几组，每组的任务都用相似的数据集例如A和B，测试模型在A上学习了以后对在B上性能有没有提升。

技术背景

FineTuning

不具体介绍，可查阅资料。

Prompt Tuning

不具体介绍，可查阅资料。

Continual Learning

这里需要重点讨论一点，就是关于持续学习的setup。本文在2.3节中介绍setup时认为在一连串的任务之间是有边界的，也就是说每条文本数据和对应的分类标签来自于哪个数据集这个信息是提供给模型的。但在实际场景中，这个信息往往不会提供给模型。也就是说，模型在预测阶段不知道当前文本数据来自哪个数据集，只是给你一个文本让你去判断，这样难度便大大增加。正是这一点，reviewers一致认为这是本文的硬伤，几乎拒稿。最后PC考虑到本文在LLMs做持续学习的先行性最后放了一马。但这一点在未来工作中是不可忽视的。

创新方法

下面，我们主要根据模型结构图来具体理解本文的方法。左侧是传统方法，右侧是文本改进的方法。比较明显的区别有两个。一是传统方法对每个任务都新增一个灰色的bidirection attention block，而新方法只有一个，新增的是tokens。二是传统方法不同任务之间有不同的task-specific input representations 而新方法是共享参数（input representations shared across all tasks）。特别地，这里作者提到 “prompts learned on previous tasks allow information re-use for future tasks. A similar phenomenon has been shown by Vu et al. (2021) – prompts learned on informative source tasks served as a good initialization for other downstream tasks.” 从初始化的角度解释了不同任务对应的prompt tokens之间的关系。此外，还使用了Embedding reparameterization （残差）技术来提高prompt tuning 稳定性。

实验环节

实验设置

数据集

见intro第四段；

baselines

Finetune: train all model parameters on a sequence of tasks (without adding any regularization constraints or replaying samples from the previous tasks).
EWC: finetune the whole model with a regularization loss that prevents updating parameters that could interfere with previously learned tasks.
A-GEM: save examples from the past tasks and restrict the gradients used to update the model on new tasks based on the retrieved examples.
Experience replay: finetune the whole model with a memory buffer, and replay samples from old tasks when learning new tasks to avoid forgetting.
MBPA++: augment BERT with an episodic memory that saves all seen examples. Perform replay during training, and local adaptation during test time.
IDBR: BERT-specific approach which continuously trains the whole model using data replay and a regularization loss, which applies sentence representation disentanglement into task-specific and task-generic spaces. Current SOTA on CL benchmark with BERT.
Per-task prompts: train a separate soft prompt for each task, while keeping the original model frozen. This setup will eliminate catastrophic forgetting, since per-task parameters do not change when new tasks are learned, but will not result in forward transfer.
PromptTuning: train a shared soft prompt sequentially on all tasks, while keeping the original model parameters frozen.
LFPT5: continuously train a soft prompt that simultaneously learns to solve the tasks and generate training samples, which are subsequently used in experience replay. Current
SOTA on CL benchmark with T5.

实现细节

Progressive Prompts与模型无关，可以用在任意的transformer-based任务上。

encoder-only： BERT
text-to-text： T5 （脚注里解释了虽然有人说T5 v1.1版本比T5效果更好，但是前者在prompt tuning过程中不如T5稳定，因此本文还是采用了T5。这里是预判review提问，提前解释。）
Prompt length：每个任务对应的prompt tokens的数量
附录里详细介绍了实验细节。

实验结果

For all CL experiments we evaluate methods after training on all tasks and report averaged test set scores across all tasks. 全部训完了再测试。

实验一：CL benchmark

上表基于T5-large。3runs的平均值。few-shot。*表示只train了soft prompt，没标*的动了整个模型参数。DR ->（data replay）。其他符号表示结果是引用其他paper的，不是自己复现的。

正文关于表1的解释：

SOTA是52.7，新方法是75.1具有较大提升，这印证了新方法做到了克服CF同时保证FT（论证本文中心论点）；
作者用了2个长句子解释了Adapter-Fusion方法是比LFPT5更强的baseline，但这里为什么没对比是因为本文关注的都是prompt tuning的，adapter tuning的就不考虑了。（这里也是预判review提问，提前解释。）

上表基于Bert-base。3runs的平均值。full datasets。其他符号同上。
正文关于表2的解释：

SOTA是76.3，新方法是77.9，有提升。
IDBR是Bert专属方法，而本文方法是通用的。
新方法不需要DR。
用了残差重参数技巧帮助训练稳定，具体分析放在附录；

实验二：长序列任务

样本数量20,200,1000；MTL: multi-task learning；
正文关于表3的解释：

比SOTA高了21.9%和33.3%，确实是明显的提高；
除了avg acc，还用了forward transfer 和 backward transfer两个指标，放在了附录B；

Attention between prompts
作者在长序列实验中贴了一张average attention scores的图片，用prompt之间的attention验证prompt对于学习的影响。例如，图中yelp和amazon相似度高（黄色），sst2和imdb相似度高。

作者这里用T5 encoder编码了所有任务文本，取最后一层的attention matrices平均值发现了相似规律。这里任务相似可以得到prompt tokens的attention matrices相似。进一步思考：之前学习的任务如何帮助后面相似的任务进一步学习呢？在lora微调过程如何对应prompt token这种情况呢？

实验三：前向迁移实验

prompt tuning直接用100个tokens在target task上训练；progressive prompt先用50个训task1，再用50个训task2（task1的token固定）。

all datasets and few-shot; prompt tuning没有迁移能力，progressive prompt有迁移能力；误差区间，相对提升，整体平均；另外这个relative improv是怎么算出来的，直接两个相减好像不对；
该实验的目的是想证明，在A任务上先训练过再到B任务上训练后，模型在B上的测试表现比直接在B上训练的测试表现要高，从而证明模型是有迁移学习的能力；

随着每类中样本数量增加，两个模型的平均表现（6个任务）增加，但Prog Prompt比Prompt Tuning表现更好。

GLEU->SuperGLEU transfer

传统prompt tuning： $P_T$ is a trainable matrix of 100 $\times e$ dimension->cat input-> $P_T; x]$ 直接在SuperGLEU上训练和测试；
Progressive Prompt： $P_{T_{Prog}};P_{GLUE};x]$ ,其中 $P_{T_{Prog}}$ 40 $\times e$ , $P_{GLEU}$ 60 $\times e$ 先在GLEU上训练(60% prompt tokens)再在SuperGLUE(40%prompt tokens)上训练和测试；

文献引用

CL

A-GEM、MBPA++、EWC、LwF、GEM
Continual learning for text classification with information disentanglement based regularization.
Continual learning in task-oriented dialogue systems.
Catastrophic interference in connectionist networks: The sequential learning problem.
Adapter-fusion: Non-destructive task composition for transfer learning.
Lfpt5: A unified framework for lifelong few-shot language learning based on prompt tuning of t5.
Continual unsupervised representation learning.
Connectionist models of recognition memory: constraints imposed by learning and forgetting functions.
Experience replay for continual learning.
Lamol: Language modeling for lifelong language learning.
Efficient meta lifelong learning with limited memory.

Model & FineTuning

Bert、T5、adapter、Adam、Prefix-tuning、 P-tuning v2、Pytorch、Glue、Superglue、 Huggingface’s transformers
Compacter: Efficient low-rank hypercomplex adapter layers.
The power of scale for parameter-efficient prompt tuning.
Improving language models fine-tuning with representation consistency targets.
Progressive neural networks.
Spot: Better frozen model adaptation through soft prompt transfer.
Revisiting few-sample bert fine-tuning.
Character-level convolutional networks for text classification.

etc

Pretrained transformers improve out-of-distribution robustness.
Learning word vectors for sentiment analysis.

阅读思考

实验部分
为什么是T5-large 和 bert-base，其他model没有尝试吗
为什么t5和bert做实验的时候对比的baseline不完全一样

Python和C++计算物理光学波形化学结构数学方程亚图跨际 C/C++Python 物理 python c++物理化学数学方程数值计算
要点Python|C++代码化排序索引和计算：冒泡排序，升序排序，快速排序，索引排序，基于索引数组的排名，基于直接插入的两个键索引，两个相关数组的索引。数学计算1：数据集升序排列后，生成索引和排名。数学计算2：一定量序列排序后，生成得新索引表，并绘制原始序列。计算3：一定量序列进行冒泡排序，插入排序，快速排序，绘制一张图显示三种排序依赖性，分别定性评估小型和广泛序列的排序算法的性能。Python|
光学超表面的人工智能 Luis Li 的猫猫人工智能专区基础及拓展超表面设计人工智能机器学习算法
光学超表面，即能够控制光传播的平面人工介质，正在从实验室过渡到商业应用。这种转变需要先进的超结构和超表面设计，考虑可制造性并通过后处理算法提高光学性能。人工智能，尤其是机器学习的优化，为这些需求提供了解决方案。该文章系统地回顾了AI在三个关键领域的潜在影响：AI支持的超表面可制造性设计（DFM）、超越经典局部相位近似的设计以及AI赋能的计算后端。Introduction超表面是超材料的二维（2D）
python排版word文档效率,【效率工具】用Python根据excel中数据批量生成word文档（适用劳... 孤傲雕 python排版word文档效率
【效率工具】用Python根据excel中数据批量生成word文档(适用劳【效率工具】用Python根据excel中数据批量生成word文档(适用劳动合同、通知书等应用场景)大家在工作中一定经常遇到类似的情况：1、制作劳动合同表，要从excel表格中将每个人的数据导入到docx劳动合同中，重复量很大。2、制作通知书，从excel表格中将每个人的数据分别填入到docx通知书中。3、制作XX方案，Wo
【干货来了】2016年DevExpress资源汇总（示例、视频） weixin_34357928
2019独角兽企业重金招聘Python工程师标准>>>在2016年，著名软件界面解决方案专家DevExpress进行了重大升级，EVGET围绕版本升级推出了一系列干货资源，现将2016年所有Dev示例资源和视频资源汇总于此，欢迎收藏转发点赞哦~示例Demo（仍在持续更新……）DevExpressDashboard在线演示：分行业的营收分析DevExpressDashboard在线演示：客户服务管理
python selenium兼容性_Selenium学习整理(Python) k程 python selenium兼容性
1准备软件SeleniumIDEfirebug-2.0.19.xpifirepath-0.9.7-fx.xpiFirefox_46.0.1.5966_setup.exe由于火狐浏览器高版本以后就不支持firebug,最好下载安装49版本以下的。selenium_ide-2.9.1.xpiWebDriverpipinstallseleniumchromedriver.exeIEDriverServe
自然语言处理（NLP）领域大语言模型学习目录大全彬彬侠大模型自然语言处理 NLP 大模型 LLM GPT BERT GLM
本文主要收集了自然语言处理（NLP）领域的大语言模型，可以可以通过点击标题链接查看具体的详情。GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6月提出的第一代GPT模型，也是第一个基于Transformer结构的自回归（Autoregressive
DeepSeek时代：AI如何重塑软件开发的每个阶段，效率提升全解析阿三0404 人工智能
在软件开发领域，时间就是竞争力。传统的瀑布模型和敏捷开发流程中，需求偏差、重复编码、测试遗漏等问题不断消耗团队精力。随着以DeepSeek为代表的AI技术突破，从需求分析到运维监控的每个环节都在发生效率革命。本文将深入解析AI在开发全流程中的具体应用，并通过真实数据揭示其带来的效率跃升。一、需求分析阶段：从模糊需求到精准拆解（效率提升65%）AI工具：自然语言处理（NLP）、需求图谱生成应用场景：
DeepSeek：如何通过自然语言生成HTML文件与原型图？阿三0404 ai 人工智能 html 机器学习深度学习
在当今快节奏的开发与设计环境中，快速生成HTML文件或原型图是每个开发者与设计师的迫切需求。虽然DeepSeek无法直接生成图片，但它却能够通过自然语言生成流程图、原型图以及交互式页面，甚至可以直接输出HTML代码。本文将详细介绍如何与DeepSeek高效交流，生成你想要的HTML文件或原型图，并分享一些实用技巧。1.DeepSeek的核心功能与优势DeepSeek是一款基于自然语言处理（NLP）
pytest框架核心知识的系统复习双子测试 pytest
1.pytest介绍是什么：Python最流行的单元测试框架之一，支持复杂的功能测试和插件扩展。优点：语法简洁（用assert替代self.assertEqual）。自动发现测试用例。丰富的插件生态（如失败重试、并发执行、报告生成）。兼容unittest框架，比自带unittest框架更加简洁高效，在unittest框架迁移到pytest框架时不需要重写代码。适用场景：单元测试、接口测试、UI自动
python：字典根据key排序双子测试 python
在Python中，字典是无序的，不支持直接按照键排序。但是可以通过以下方法实现字典按照键排序：方法一：使用sorted()函数和字典的items()方法my_dict={'b':2,'c':3,'a':1}sorted_dict={k:vfork,vinsorted(my_dict.items(),key=lambdaitem:item[0])}print(sorted_dict)这种方法使用了s
Effective Python：（19）可变数量参数 earthzhang2021 开发语言 1024程序员节 python 网络算法
EffectivePython：（19）可变数量参数EffectivePython本条涉及函数的参数的数量问题，虽然大多数情况下参数的数量和顺序都是预先设计好的，但是仍然有参数可变的函数，比如C语言常用的main函数的argv，这在格式化打印函数上也很常用，所以Python也需要支持。Python函数对于可变数量的参数的支持方式，类似于unpacking用法中的通配方式，即函数参数的最后位置的参数
Python 核心语法解析：with 与 async/await_跟我一起学Python17 灏瀚星空 python 开发语言经验分享笔记
Python核心语法解析：with与async/await_跟我一起学Python17在Python的宇宙中，with语句与async/await语法成为构建现代化Python应用的基石。本文将从实际场景出发，深入剖析这两个核心语法的工作机制。您将看到with语句如何化身智能管家，通过上下文管理器实现资源的自动回收；领略async/await如何搭建异步编程的高速通道，用同步代码的书写方式达成非阻
基于 Python 对百度热搜 “Manus 推出引发科技圈震动” 的数据分析萧十一郎@ python python 百度科技
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4关键词提取与词频统计2.5情感分析（简单示例，实际可采用更复杂模型）2.6数据可视化三、主要的代码难点解析3.1数据收集3.2数据清洗-文本预处理3.3关键词提取与词频统计3.4情感分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2文本预处理改进4.3关键词提取改进4.4情感分析改进4.5可视化改进一、案
Manus的基于Sentence-BERT与ChromaDB的语义检索系统设计与实现设计狗和程序猿人工智能 AI 行业报告 bert 人工智能深度学习科技 github 自然语言处理
基于Sentence-BERT与ChromaDB的语义检索系统设计与实现——面向高维向量存储的语义检索优化研究摘要本文提出一种融合Sentence-BERT深度语义编码与ChromaDB向量数据库的语义检索框架。针对传统关键词匹配方法在语义鸿沟问题上的局限性，采用预训练语言模型生成768维语义向量，通过ChromaDB实现高效向量存储与近似最近邻搜索（ANN）。实验表明，在MSMARCO数据集上，
解锁 Hugging Face 的 smolagents：AI 代理的革命性突破！真智AI 人工智能 python 开发语言机器学习 pandas
利用简单却强大的AI代理框架提升你的工作效率！AI代理的崛起随着大型语言模型（LLM）推理能力的增强，AI代理成为了当前最热门的话题。这些代理不仅能够独立做出决策，还能根据用户输入执行任务。如果你对AI代理不太了解，可以将其理解为一个由LLM控制工作流的程序。AI代理的核心理念是：让机器执行过去无法完成的任务。随着AI代理的趋势不断上升，市面上涌现了许多AI代理框架。在众多代理框架中，smolag
如何使用 Python+Flask+win32print 实现简易网络打印服务江梦寻 python flask 开发语言后端 pytest web3.py win32
Python实现网络打印机：Flask+win32print在工作场景中，我们可能需要一个简单的网页接口，供他人上传文档并自动打印到指定打印机。本文将演示如何使用Python+Flask+win32print库来实现这一需求。代码详见：https://github.com/poboll/webprint1.环境准备Windows10/11Python3.8+打印机（已安装并可用）Flaskpywi
Python 文档测试赔罪 Python 系统学习 python 服务器前端
目录文档测试练习小结文档测试如果你经常阅读Python的官方文档，可以看到很多文档都有示例代码。比如re模块就带了很多示例代码：>>>importre>>>m=re.search('(?>>m.group(0)'def'可以把这些示例代码在Python的交互式环境下输入并执行，结果与文档中的示例代码显示的一致。这些代码与其他说明可以写在注释中，然后，由一些工具来自动生成文档。既然这些代码本身就可以
Python Web开发（三）：HTTP请求的url路由是Dream呀 python 前端 http django 后端
本文目录：一、要实现的目标二、创建项目app1.APP介绍2.创建APP三、返回页面内容给浏览器四、url路由1.添加路由记录1.1解决ERROR:Couldnotfindaversionthatsatisfiestherequirementxxx1.2启动web服务2.路由子表`【系列好文推荐】`前言：作者简介：是Dream呀，华为云享专家、CSDN原力计划作者、Python领域优质创作者，专注
企业AI数据安全白皮书：深寻模型会话保护与安当TDE实战安当加密人工智能
一、引言人工智能正在重塑企业的业务流程与创新模式，从智能客服到辅助决策，从图像识别到自然语言处理，AI模型正逐步渗透到企业运营的各个环节。然而，随着AI技术的深入应用，数据安全问题也如影随形。对于部署在企业内网的DeepSeek模型而言，员工与模型的会话内容往往包含企业的核心商业信息、敏感技术参数以及员工个人隐私等关键数据。一旦这些数据遭到泄露、篡改或恶意利用，不仅会给企业带来巨大的经济损失，还可
深入理解 Python 中的 copy 与 deepcopy 的使用 web安全工具库 python 开发语言
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474在Python中，数据的复制是一个重要的操作，尤其是在处理复杂数据结构（如列表、字典、集合等）时。copy和deepcopy是Python标准库copy模块提供的两种复制方法。它们之间有着明显的区别，理解这些区别对于避免潜在的错误和数据问题至关重要。本文将详细介绍copy和deepcopy的用法，包括代码示例
就在刚刚！马斯克决定将“地球上最聪明的人工智能”Grok-3免费了！源代码杀手 AI技术快讯人工智能 python
Grok-3概述与关键功能Grok-3是由xAI开发的先进AI模型，于2025年2月19日发布，旨在提升推理能力、计算能力和适应性，特别适用于数学、科学和编程问题。作为xAI系列模型的最新版本，Grok-3延续了公司对构建强大且安全的AI系统的承诺，并推动人工智能在多个领域的应用。Grok-3的核心优势在于其大规模强化学习（RL）优化，能够在几秒到几分钟内进行深度推理，适应复杂任务的需求。配备的D
python前景和待遇-Python就业前景怎么样？薪资待遇多少 weixin_37988176
Python就业前景怎么样？薪资待遇多少？Python上手容易，入门简单Python是一门面向对象的编程语言，编译速度超快。它具有丰富和强大的库，常被称为"胶水语言”，能够把用其他语言编写的各种模块（尤其是C/C）很轻松地联结在一起。其特点在于灵活运用，因为其拥有大量第三方库，所以开发人员不必重复造轮子，就像搭积木一样，只要擅于利用这些库就可以完成绝大部分工作。如果你想选择一种语言来入门编程，那么
Ollama：让大型语言模型触手可及步子哥 AGI通用人工智能语言模型人工智能自然语言处理
Ollama：让大型语言模型触手可及导语：近年来，大型语言模型（LLM）发展迅猛，但对于普通用户而言，搭建和使用LLM仍有一定门槛。Ollama应运而生，它是一个轻量级、可扩展的框架，致力于让每个人都能轻松构建和运行本地LLM。一键安装，轻松上手Ollama提供了简单易用的安装方式，无论你是macOS、Windows还是Linux用户，都能快速开始使用。macOS:下载Windows(预览版):下
DeepSeek这么火，一文教你本地部署DeepSeek! 入职啦 python python deepseek 部署持续部署 AI 人工智能
要说年假最火的是什么，DeepSeek绝对在话题榜上，公众号几乎都是关于他的，今天入职啦也来和大家聊一聊我们AI领域的新星–DeepSeek，顺便也教大家部署一套属于自己的本地搜索服务。为什么DeepSeek这么火？一、技术架构优势DeepSeek采用创新的混合模型架构，将传统机器学习与深度学习有机结合。这种架构既保留了传统方法的可解释性，又具备深度学习的强大表征能力。通过自适应学习机制，Deep
Python开发行业薪资多少？ Java大师兄-威哥 Python 编程 IT技术程序员 IT
大家都知道，人工智能越来越受欢迎了。而Python由于简单易用，是人工智能领域中使用最广泛的编程语言之一，它可以无缝地与数据结构和其他常用的AI算法一起使用。Python开发行业薪资多少？我们看看图片就能知道个大概。无论是国内还是国外对于编程语言的热度调查中，Python都是数得上名的。Python热度的持续升温，自然也引起了开源团队的项目。由于OSI认可的开放源码许可，程序员可以使用Python
UI自动化：Python + Selenium4.6+版本环境搭建双子测试自动化 python
以下是Python+Selenium4.12+环境搭建的详细步骤（无需手动下载浏览器驱动，利用SeleniumManager自动管理驱动）：1.安装Python1.1下载并安装Python官网下载地址：DownloadPython|Python.org安装时勾选AddPythontoPATH（自动配置环境变量）。1.2验证Python安装bash复制python--version#输出Python
python工资一般多少-Python开发的工资一般多少编程大乐趣
原标题：Python开发的工资一般多少Python开发的工资一般多少？要想知道Python开发的工资，就要先看看Python开发工程师的发展前景怎么样。Python的用武之地很多，它可读性好且开发效率很高、有着丰富的第三方库。（如GUI、API、开发框架）随着Python的流行，带动的是它的普及以及市场需求量。Python的未来薪资，究竟会朝怎样的方向发展呢？薪资的变化始终符合经济学原理：价格由供
Python就业薪资怎么样？前景如何？田野猫咪 Python 计算机 python 人工智能数据挖掘
Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。那么Python现在在国内的就业薪资高吗？Python就业薪资怎么样？前景如何？对于这些问题，下面小编整理相关内容为大家详情解析，一起来了解吧~如果你也对Python感兴趣，想通过学习Python转行、做副业或者提升工作效率，我也为大家整理了一份【最新全套Python学习资料】一定对
python程序员工资高吗？ lmseo5hy python培训 python程序员
据统计数据显示，北京Python平均薪资为18860元，Python不同岗位薪资范围为：Python全栈开发工程师（10k-20K）、Python运维开发工程师（15k-20K）、Python高级开发工程师（15k-30K）、Python大数据工程师（15K-30K）、Python机器学习工程师（15k-30K）、Python架构师（20k-40k）等，相比于Java、PHP、C#等其他的编程语言
Python代码缩进及Pycharm中代码缩进 Hi~晴天大圣 Python python pycharm 缩进
1、代码缩进是编写Python代码时非常重要的部分，因为Python使用缩进来表示代码块。你可以选择使用Tabs或Spaces来进行缩进。2、在Python中，不建议将使用Tab键快捷缩进和点击使用Space（空格）进行缩进混用，虽然在很多时候Tab键为使用Space缩进4个空格的快捷方式，如Pycharm中Tab键为使用Space缩进4个空格的快捷方式：不同的编辑器或IDE对Tab和Space的
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

【论文阅读】Progressive Prompts: Continual Learning for Language Models

论文信息

论文标题

发表刊物

作者团队

关键词

文章结构

引言

研究动机

任务背景

技术背景

FineTuning

Prompt Tuning

Continual Learning

创新方法

实验环节

实验设置

数据集

baselines

实现细节

实验结果

实验一：CL benchmark

实验二：长序列任务

实验三：前向迁移实验

相关工作

持续学习

Parameter-efficient Learning

文献引用

CL

Model & FineTuning

etc

阅读思考

你可能感兴趣的:(论文阅读,语言模型,人工智能,深度学习,python,自然语言处理)