还卿一钵无情泪

轻量化微调 Parameter-Efficient Fine-Tuning

导读

近年来，大规模预训练模型在自然语言处理任务上取得了巨大的成功。对预先训练好的语言模型进行微调是目前自然语言处理任务中的普遍范式，在许多下游任务上表现出了极好的性能。全参数微调，即对模型的所有参数进行训练，是目前将预训练模型应用到下游任务的最通用方法。

然而，全微调的一大弊病是对于每一个任务，模型均需要保留一份大规模的参数备份，在下游任务量很大时这种做法会相当昂贵。在预训练模型越来越大，不断逼近到千亿甚至万亿参数规模时，这种问题会被无限放大。

轻量化微调(Parameter-Efficient Fine-Tuning)应运而生，轻量化微调主要着眼于微调整个模型的少部分参数，并设法通过微调少部分参数在下游任务上得到接近全微调的性能，并解决上游任务与下游任务输入输出间可能存在的结构偏差问题。笔者整理了轻量化微调方向的经典论文以及近两年的最新进展，论文主要包含近年的主流轻量化微调方法，新型轻量化微调方法，轻量化微调应用以及统一的轻量化微调框架，欢迎大家批评和交流。

论文列表

1、Parameter-Efficient Transfer Learning for NLP Adapter（ICML 2019）

这项工作第一次提出了Adapter方法。在对预训练模型进行微调时，我们可以冻结在保留原模型参数的情况下对已有结构添加一些额外参数，对该部分参数进行训练从而达到微调的效果。作者采用Bert作为实验模型，在每个Transformer Block的Attention层以及两个全连接层后增加了一个Adapter结构，其总体结构如下：

Adapter结构有两个特点：较少的参数和在初始化时与原结构相似的输出。在实际微调时，由于采用了down-project与up-project的架构，在进行微调时，Adapter会先将特征输入通过down-project映射到较低维度，再通过up-project映射回高维度，从而减少参数量。Adapter-Tuning只需要训练原模型0.5%-8%的参数量，若对于不同的下游任务进行微调，只需要对不同的任务保留少量Adapter结构的参数即可。由于Adapter中存在残差连接结构，采用合适的小参数去初始化Adapter就可以使其几乎保持原有的输出，使得模型在添加额外结构的情况下仍然能在训练的初始阶段表现良好。在GLUE测试集上，Adapter用了更少量的参数达到了与传统迁移学习方法接近的效果。

2、Prefix-Tuning: Optimizing Continuous Prompts for Generation（ACL 2021）

本文是斯坦福大学在ACL2021的一篇工作。作者提出了一种前缀微调的方法，与GPT-3通过自然语言指令提示模型生成输出的Prompting方法不同的是，作者采用连续的任务相关向量作为输入前缀，在微调时不训练模型参数，只训练这些前缀向量，并利用这些连续可训练的Prefix Embedding提示模型生成正确的输出。下图是该方法分别在自回归模型和编码器-解码器模型中的表示：

在训练时，Prefix-Tuning的优化目标与正常微调相同，但只需要更新前缀向量的参数。作者发现直接更新前缀向量的参数会导致训练的不稳定与结果的略微下降，因此采用了重参数化的方法，通过一个若干较小的前缀向量经过单层MLP生成正常规模的前缀向量，其形式化表示如下：

训练完后，用于重参数化的较小前缀向量会被丢弃，只保留目标前缀向量的参数。

作者采用了Table-To-Text与Summarization作为实验任务，在Table-To-Text任务上，Prefix-Tuning在优化相同参数的情况下结果大幅优于Adapter，并与全参数微调几乎相同。而在Summarization任务上，Prefix-Tuning方法在使用2%参数与0.1%参数时略微差于全参数微调，但仍优于Adapter微调。

3、GPT Understands, Too（Arxiv 2021.3.18）

本文提出了P-tuning方法，通过自动的搜索方法在连续空间中搜索合适的Prompt向量，并弥合了GPT模型与自然语言理解任务之间的差距。类似Prefix-Tuning，P-tuning也采用连续的可训练向量作为预训练模型输入，并通过梯度下降方法优化Prompt向量。

与Prefix-Tuning不同的是，P-tuning并不仅仅将Prompt安置在输入的前缀部分，而是采用合适的Template去对模型进行提示，并通过梯度下降训练连续的Prompt表示去得到最佳的Prompting效果。其结构如下所示：

如果对各个prompt向量采用随机初始化，由于理想的目标向量（即左图中的离散prompt）在预训练后已经变得高度离散化了，在采用梯度下降的优化时很容易陷入局部最优。同时作者认为直觉上prompt embeddings（即右图中的连续prompt）应该是相互依赖的，需要采用一些方法来增加prompt之间的相关性。因此作者使用了一个由双向LSTM与双层MLP组成的Prompt Encoder进行映射，形式化表示如下所示：

作者在两个自然语言理解数据集：LAMA knowledge probing和SuperGlue上进行了测试，并取得了接近甚至优于BERT的效果。同时作者通过实验说明了P-tuning的方法也可以帮助BERT在相关任务上有所提升。

4、The Power of Scale for Parameter-Efficient Prompt Tuning（EMNLP 2021）

本文是谷歌在EMNLP 2021上的一篇工作，这篇工作延续了Prompt-Tuning的思想，采用连续的Soft Prompt进行训练，并冻结了模型的其他所有参数。与Prefix-Tuning与P-Tuning不同的是，作者没有采用任何的Prompt映射层（即Prefix-Tuning中的重参数化层与P-Tuning中的Prompt Encoder），而是直接对Prompt Token对应的Embedding进行了训练。

作者采用T5模型作为实验backbone，并将所有的任务均重新建模为text-to-text的生成任务。T5采用了Span Corruption，恢复被打乱或是被masked的句子，这样会导致模型的输入输出均是不是自然的语言文本，使得少量参数的Prompt-Tuning方法无法弥合预训练任务和下游任务之间的差距。由此，作者针对T5做了以下改动。

直接采用Span Corruption进行下游任务的测试
采用Span Corruption，但在输入文本前加上任务相关的Sentinel前缀
对T5继续进行一小段时间的监督训练，但采用LM的训练目标，即给定一段文本前缀，并根据前缀文本生成符合自然语言的后续文本。这样是为了使得T5能够有一定的输出自然语言的能力。

作者在SuperGlue测试集上进行了实验，其实验结果如下：

可以看到，随着模型规模的增大，Prompt-Tuning的效果不断接近，在参数量足够大时几乎与Model-Tuning的效果一致，且在任意模型规模下都显著优于人工设计离散的Prompting方法。

5、LoRA Low-Rank Adaptation of Large Language Models（ICLR 2022）

本文是微软在ICLR2022上投稿的一篇工作。作者提出了一种基于一种新的基于低秩矩阵优化的微调方法LoRA，可以在下游任务微调时将训练参数量减少到接近原来的万分之一，并几乎不会伤害到预训练模型在下游任务上的性能。

文章首先指出了此前的轻量化微调方法的不足。对于Adapter-Tuning方法，由于在模型中添加了额外的结构，尽管Adapter采用了Down-Project与Up-Project的方法减少参数量，多余的结构仍会拖慢模型在进行推理时的速度。对于Prompt-Tuning方法，Prompt的训练常常是不稳定的，同时在输入序列中添加Prompt Token也会一定程度上降低输入的有效序列长度，从而影响到模型性能。

LoRA通过对矩阵的“低秩参数”进行优化克服了以上问题。神经网络通常包含大量的全连接层，并通过执行矩阵乘法来完成前向传播。这些全连接层中的参数矩阵往往是满秩的，[1]证明了预训练语言模型的参数中往往有一个较低的“本质维度”，即使待优化的参数矩阵被映射到一个较小的子空间内也能保持优秀的学习能力。在这样的前提下，作者希望只对参数矩阵中低秩的部分进行优化，并将原矩阵的优化过程表示成一个低秩矩阵的优化过程：

这样，我们可以将前向传播过程表示成以下形式：

其中，A，B是低维的矩阵。采用这样的变换后，待优化的参数规模就从原本的参数规模变成了低维矩阵的参数规模，大大减少了参数量。作者在实验过程中，用零矩阵初始化B，而用一个随机的高斯分布初始化A。整个流程如下：

作者使用LoRA分别在RoBERTa，DeBERTa，GPT-2与GPT-3上分别做了实验。LoRA在只使用极少数参数的情况下取得了接近全参数微调的结果。在1750亿参数的GPT-3上，LoRA只优化了3770万参数，即在WikiSQL，MNLI-m和SAMSum数据集上取得了超过全参数微调的效果，证明了该方法的正确性。

6、Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators（ACL 2021）

这篇工作提出了一种新型的模型压缩与轻量化微调方案-MPOP。MPOP的思想来自于物理上量子多体问题中的MPO分解方法。给定一个矩阵，MPO分解可以将矩阵表示为若干个张量的乘积，如下所示：

基于这种方法，我们可以对参数矩阵进行分解，并将中间的张量定义为中间张量（central tensor），其余位置的张量定义为辅助张量（auxiliary tensors）。由于MPO分解的特性，中间张量的参数量远大于辅助张量，因此作者猜想中间张量存储着预训练模型的核心语言学信息，而对于下游任务的适应只需要训练低参数量的辅助张量即可，如下图所示：

除此之外，作者采用连接键截断的方式实现了对原始矩阵的低秩近似，并推算出重建原参数矩阵的误差上界，如下图所示：

最终，作者在ALBERT上采用GLUE数据集进行了实验，在微调参数量降低了91%的情况下，在除MNLI任务外均取得了超过全参数微调的结果。

7、Y-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning ACL2021（ACL 2022 ARR）

这项工作提出了一种基于标签的映射方法，与主流轻量化微调方法不同的是，Y-Tuning完全冻结了整个预训练模型，而在下游任务中对不同的下游任务学习通过标签映射学习到对应的标签特征。换言之，Y-Tuning完全不再进行feature-representation的学习，转而学习比one-hot更加复杂的label-representation。Y-Tuning的优势可以总结如下：

参数轻量化的：Y-Tuning只需要对最后的标签映射层进行训练，而不需要对预训练模型进行任何更新，训练的参数量大大减少。
训练轻量化的：预训练模型不需要记录任何梯度相关信息，大幅降低了时间和存储消耗。
推理轻量化的：推理过程中，所有不同任务的数据均可以通过一次前向传播得到其编码表示。
鲁棒的：预训练模型本身不会进行任何调整，因此很难通过下游任务的对抗数据去对模型进行攻击。
安全的：通过对标签进行编码隐藏了标签本身的信息，从而降低数据泄露的可能性。

Y-Tuning的架构如下：

作者使用BART和RoBERTA模型在GLUE数据集上进行了实验。实验表明Y-Tuning的效果相较传统的完全冻结预训练模型的方法有显著提升，且速度与全参数微调的方法有6倍以上的提升。但是最终的效果与全参数微调还是有一定的差距。

8、Composable Sparse Fine-Tuning for Cross-Lingual Transfer（ACL 2022 ARR）

本文是剑桥大学在2022ACL ARR上投稿的一篇工作，主要提出了一种基于lottery ticket假说的Sparse Fine-Tuning方法，在减少微调参数量的同时在跨语言任务迁移上取得了优于此前方法的效果。

Lottery-ticket假设在一个参数矩阵内，只有一小部分参数的更新对学习有帮助，这些参数就称为lottery ticket。本文采用的剪枝方法Lottery-ticket Sparse Fine-Tuning（LT-SFT）是指：在一轮训练后，按一定的比例通过一个mask对更新较小的参数进行剪枝，将它们恢复为原来的预训练权重，而保留其他更新较大的参数。最后经过多轮训练后，模型只有一小部分的参数真正得到了更新。

跨语言任务的迁移是也是通过LT-SFT完成的，对于某一目标语言语料，首先利用预训练MLM目标函数通过LT-SFT方法进行训练，得到对应的稀疏差异矩阵（即参数的更新量），称为Language SFT。对于某一任务，通过在源语言（通常是英语）上在对应的下游任务上采用LT-SFT进行训练，再次得到对应的差异矩阵，称为Task SFT。最终我们直接将这些SFT相加，即得到了一个跨语言迁移的模型，模型在目标语言上也得到了在源语言上进行下游任务的能力。整个模型的框架如下：

作者在四个下游任务上进行了实验：词性标注（POS），句法分析（DP），命名实体识别（NER）和自然语言推理（NLI）。作者在35种不同的语言（通常是数据集较少的不常见语种）上进行了训练，并且相比原来该任务的Baseline-基于Adapter的MAD-X方法有了很大的提升。

9、Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning（EMNLP 2021）

本文是EMNLP2021上的一篇工作。作者从参数更新的角度提出了一种基于子网络的Child-Tuning方法，通过仅更新原网络的部分参数来缓解大规模预训练模型在相对小规模的下游任务数据上训练时的过拟合问题，并相比传统微调方法有明显性能提高。

标准的全参数微调往往会存在不稳定和泛化性能差的问题，此前的工作已经证明了微调往往不需要对整个网络进行微调，而仅仅需要微调部分参数即可。Child-Tuning通过更新网络中的子网络来实现这一点。Child-Tuning首先会根据一定的策略找到参数矩阵中的子网络，并生成对应的掩码矩阵。在计算完梯度后，根据掩码只对自网络对应的参数进行更新，而其他参数保持不变。Child-Tuning方法与剪枝方法不同在于，它并不会使某个非自网络的参数失效，而只是停止对它的更新。因此Child-Tuning只在梯度反向传播时起作用，而在前向传播时不做任何改变，其方法可以表示为下图：

作者提出了两种Child-Tuning的变种：任务无关Child-Tuning-F与任务相关Child-Tuning-D。对于任务无关Child-Tuning-F，由于与下游任务无关，只需要通过采样伯努利分布得到一个随机的掩码矩阵即可。对于任务相关Child-Tuning-D，作者通过费希尔信息矩阵（FIM）来计算各个参数对下游任务的重要程度，并根据该策略调整每次迭代的掩码矩阵。

作者采用BERT-large, XLNet-large，RoBERTa-large和ELECTRA-large模型在GLUE的四个基准任务上进行了实验，Child-Tuning相较全参数微调方法都有提高，同时也提高了模型的泛化能力，说明了该方法的有效性。

10、Towards a Unified View of Parameter-Efficient Transfer Learning（ICLR 2022）

本文是CMU在ICLR2022上的一篇工作。作者主要探索了Prefix-Tuning，Adapter和LoRA方法，分析了这些目前主流的轻量化微调方法间的联系与差异，并将它们均视作去学习在模型中特定隐层状态的轻量化微调方法，并提出了一个统一的轻量化微调框架将这些方法进行了集成。

作者采用了对输入的计算过程来表示各个轻量化微调方法的差异，对于Adapter，它的计算过程如下：

其中h表示待修改的隐藏表征，而x表示子模块的直接输入。对于Prefix-Tuning方法，经过一系列的变换，Prefix-Tuning方法可以表示如下：

LoRA通过微调一个低秩的矩阵来达到轻量化微调的效果，它也可以表示成类似的形式：

经过上述分析，作者发现了三种方法之间的本质计算形式都是相似的，并可以将三种方式均表示成对模型隐状态的修改，并将这些方法统一在同一个框架内，如下图所示：

作者采用BART-Large的多语种模型变种mBART-Large和RoBERTa-Base分别在文档摘要，跨语种翻译，自然语言推理与情感分类数据集上进行了测试。最优的集成方案的效果要优于此前所有的轻量化微调方法，并且十分接近全参数微调的效果。

参考文献

[1] Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning.
[2] The Power of Scale for Parameter-Efficient Prompt Tuning
[3] Parameter-Efficient Transfer Learning for NLP Adapter
[4] The Power of Scale for Parameter-Efficient Prompt Tuning
[5] LoRA Low-Rank Adaptation of Large Language Models
[6] Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators
[7] Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning
[8] Towards a Unified View of Parameter-Efficient Transfer Learning
[9] Composable Sparse Fine-Tuning for Cross-Lingual Transfer

Compressed Channel Estimation for Intelligent Reflecting Surface-Assisted Millimeter Wave Systems No_one-_-2022 移动天线优化算法学习
文章目录II.SYSTEMMODELANDPROBLEMFORMULATIONIII.CHANNELMODELIV.PROPOSEDMETHOD摘要：在这封信中，我们考虑了智能反射面(IRS)辅助毫米波(mmWave)系统的信道估计，其中部署了IRS来辅助从基站(BS)到用户的数据传输。本文表明，为了实现联合主动式和被动式波束形成，需要获取大尺寸级联信道矩阵的知识。为了减少训练开销，利用了毫米波信
AI产品大模型学习指南：清晰路线，AI产品经理必备知识点一网打尽！_AI产品经理 AGI大模型学习人工智能产品经理 LLM 大模型学习学习知识图谱 AI产品经理
一、AI产品经理知识扫盲1️⃣【AI的产品形态到底是什么】？没有固定形态。实际上AI只是一种对传统产品或服务赋能的手段而已，将各种“中间件”（通常是一种训练好的模型，当输入一定数据后自动返回一定的输出值）、传感器等不同形式的软件、硬件融入传统产品或服务的使用或体验流程中。AI只是一种工具而已，产品的终极目标仍然不变为用户创造最大价值，提供最佳用户体验。2️⃣【AI产品的三要素】算法+计算能力+数据
Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution（预览版本）境心镜 transformer 深度学习人工智能
摘要Transformers已表现出卓越的性能，然而，其架构设计是一个耗时的过程，需要专业知识和反复试验。因此，研究通过Transformer架构搜索(TAS)自动搜索高性能Transformers的有效方法是值得的。为了提高搜索效率，基于无训练代理的方法已在神经架构搜索(NAS)中得到广泛采用。然而，这些代理被发现不足以很好地推广到Transformer搜索空间，这一点已被多项研究和我们自己的实
用双色球数据集微调后的大模型 qq_29790801 人工智能 NLP
最近用Qwen/Qwen1.5-1.8B-Chat大模型来微调训练双色球2003001-2025011的数据集，实验测一下大模型出球的预测情况。使用输入期数看它的输出如：prompt="2025012"messages=[6,10,14,17,23,25,12}]有兴趣的朋友也可以下载玩玩魔塔社区下载模型地址：魔搭社区魔塔社区下载数据集地址：魔搭社区huggingface下载模型地址：https:
深度学习项目十一：mmdetection训练自己的数据集小啊磊_Vv 深度学习和视觉项目实战目标跟踪人工智能计算机视觉 python 深度学习
mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式yolo转coco数据集格式的代码三：训练dataset数据文件配置configs1.在configs/faster_rcnn/faster-rcnn_r101_fpn_1x_coco.py
深度学习 PyTorch 中 18 种数据增强策略与实现 @Mr_LiuYang 计算机视觉基础数据增强深度学习 torchvision transforms
深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。PyTorch提供torchvision.transforms模块丰富的数据增强操作，我们可以通过组合多种策略来实现复杂的增强效果。本文将介绍18种常用的图像数据增强策略，并展示如何使用PyTorch中的torchvision.transfor
从前端程序员到大模型工程师的转型攻略七七Seven～前端语言模型人工智能学习 chatgpt 算法
在科技日新月异的今天，人工智能（AI）特别是大规模预训练模型（大模型）的发展正引领着新一轮的技术革命。对于一位有志于从专注于用户界面设计和开发的前端程序员转向这个充满潜力领域的专业人士来说，这不仅是一次技术栈的转换，更是一个思维方式和个人职业发展的重大转变。本文将提供一个详尽的指南，帮助你顺利地完成这一过渡。第一阶段：打牢基础（第1-4周）深入了解AI与机器学习概念理解：阅读相关书籍、在线课程或观
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
MMDetection实用工具详解（上）：日志分析、结果分析、混淆矩阵 MickeyCV 目标检测 python 深度学习 linux 目标检测
实用工具目录一、日志分析使用方法实际案例二、结果分析pkl结果文件生成使用方法实际案例三、混淆矩阵使用方法实际案例遇到的UserWarning解决方案MMDetection官方除了训练和测试脚本，他们还在mmdetection/tools/目录下提供了许多有用的工具。本帖先为大家重点介绍其中三个简单而实用的工具：日志分析、结果分析、混淆矩阵。一、日志分析tools/analysis_tools/a
Vision Transformer 分类水果图片集 Python 代码（可训练自己数据集） Illusionna. transformer 深度学习人工智能
代码链接:https://github.com/Illusionna/ComputerVision/tree/main/EfficientTransformerArepositoryforViT.ContributetoIllusionna/TransformerdevelopmentbycreatinganaccountonGitHub.https://github.com/Illusionna
AI浪潮下的数据保卫战：SSL证书为何成为企业刚需？ ssl证书
随着人工智能（AI）技术的迅猛发展，数据已成为企业最核心的资产之一。无论是训练AI模型、优化算法，还是提供个性化服务，数据的安全性和隐私保护都至关重要。然而，AI的广泛应用也带来了前所未有的安全挑战，尤其是在数据传输和存储过程中，如何防止数据泄露、篡改和窃取成为企业必须面对的问题。在这样的背景下，SSL证书作为网络安全的基础设施，正逐渐成为企业的“刚需”。1.AI时代的数据安全挑战数据量激增：AI
深度学习在SSVEP信号分类中的应用分析自由的晚风深度学习分类人工智能
目录前言1.SSVEP信号分类的处理流程2.模型输入和数据预处理3.模型结构设计3.1卷积神经网络（CNN）3.2长短期记忆网络（LSTM）4.训练方法与激活函数5.性能评估与挑战6.未来方向前言随着脑机接口（BCI）技术的发展，SSVEP（稳态视觉诱发电位）因其高信息传输速率和短训练时间而成为最受欢迎的BCI范式之一。近年来，深度学习方法在SSVEP信号分类中取得了显著的成果。本文通过对31个深
MATLAB控制函数测试要点剖析蚂蚁质量其他 matlab 深度学习
一、功能准确性检验基础功能核验针对常用控制函数，像用于传递函数建模的tf、构建状态空间模型的ss，以及开展阶跃响应分析的step等，必须确认其能精准执行基础操作。以tf函数为例，在输入分子与分母系数后，理应生成准确无误的传递函数模型；而运用step函数时，则应能够精准计算并绘制出系统的阶跃响应曲线，如实反映系统对阶跃输入的动态响应过程。复杂功能测试对于高级控制函数，例如线性二次调节器lqr、模型预
AF3 block_delete_msa函数解读 qq_27390023 深度学习人工智能 python 生物信息学 pytorch
AlphaFold3data_transforms模块的block_delete_msa函数用于从MSA（多序列比对）中删除多个块（block）序列，以模拟MSA数据的缺失或噪声。这在训练时可能用于数据增强（防止模型对MSA过度依赖）。推理（inference）时不会使用，因为完整MSA对预测准确性很重要。源代码：#Notusedininference@curry1defblock_delete_
基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习 Wis4e 深度学习机器学习 pytorch
首先，给出一个数组x，然后基于表达式y=3x2+2，加上一些噪音数据到达另一组数据y。然后，构建一个机器学习模型，学习表达式y=wx2+b的两个参数w、b。利用数组x，y的数据为训练数据。最后，采用梯度梯度下降法，通过多次迭代，学习到w、b的值。以下为具体步骤：1)导入需要的库。importnumpyasnp%matplotlibinlinefrommatplotlibimportpyplotas
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
AI 大模型应用数据中心建设：数据中心成本优化杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AI大模型应用数据中心建设：数据中心成本优化1.背景介绍在人工智能（AI）和大模型应用的快速发展中，数据中心（DataCenter）成为了一个至关重要的组成部分。无论是进行深度学习模型的训练，还是大模型应用的推理，数据中心都需要提供充足的计算资源、存储空间和网络带宽。随着AI模型和大数据量的增长，数据中心的建设和管理成本逐渐成为AI技术落地和应用的核心挑战之一。为了优化数据中心成本，同时保持高性能
Process-based Self-Rewarding Language Models 论文简介 ZHOU_CAMP deepseek related 论文人工智能深度学习
基于过程的自奖励语言模型：LLM优化的新范式引言大型语言模型（LLM）在多种任务中展现出了强大的能力，尤其是在使用人工标注的偏好数据进行训练时。然而，传统的自奖励范式在数学推理任务中存在局限性，甚至可能在迭代训练中导致模型性能下降。为了解决这些问题，论文《Process-basedSelf-RewardingLanguageModels》提出了一种新的框架，该框架结合了长链推理、逐步LLM评判（L
实战1. 利用Pytorch解决 CIFAR 数据集中的图像分类为 10 类的问题啥都鼓捣的小yao 深度学习 pytorch 分类人工智能深度学习
实战1.利用Pytorch解决CIFAR数据集中的图像分类为10类的问题加载数据建立模型模型训练测试评估你的任务是建立一个用于CIFAR图像分类的神经网络，并实现分类质量>0.5。注意：因为我们实战1里只讨论最简单的神经网络构建，所以准确率达到0.5以上就符合我们的目标，后面会不断学习新的模型进行优化CIFAR的数据集如下图所示：我们大概所需要的功能包如下：importnumpyasnpimpor
Training-free Neural Architecture Searchthrough Variance of Knowledge of Deep Network Weights（预览版本）境心镜免训练深度学习人工智能 NAS
代码位置摘要深度学习彻底改变了计算机视觉，但它使用深度网络架构取得了巨大的成功，而这些架构大多是手工制作的，因此可能不是最理想的。神经架构搜索(NAS)旨在通过遵循明确定义的优化范式来弥补这一差距，该范式系统地寻找最佳架构，给定客观标准，例如最大分类准确度。然而，NAS的主要限制是其天文数字般的计算成本，因为它通常需要从头开始训练每个候选网络架构。在本文中，我们旨在通过基于Fisher信息提出一种
谷歌搜索并发搜索/cookie并发生成方案背拥爬虫 opencv
谷歌最近也是更新，协议3个cookie才能完成请求经过测试5并发，可以每秒保持50-80个cookie。20并发，则可以每秒保持千次cookie的生成并发查询嘎嘎快，单条cookie存活为60秒，可以重复查询200次以内需要联系另外腾讯系阿里系AI训练标注也可以联系
开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker-OpenResty（三）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言目前，大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。另外，使用Docker实现便捷测试成为一种高效的解决方案。通过将模型及其运行环境封装在Docker容器中，开发者可以确保模型在不同环境下的行为一致性，避免由于环境差异导致的不可预见的错误。Docker的轻量级特性使得测试可以迅速部署
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
(即插即用模块-特征处理部分) 三十、(2024) BFAM & CBM & DFEM 特征聚合+特征提取+边界感知御宇w 即插即用-特征处理深度学习计算机视觉即插即用模块
文章目录1、BitemporalFeatureAggregationModule2、ChangeBoundary-AwareModule3、DeepFeatureExtractionModule4、代码实现paper：B2CNet:AProgressiveChangeBoundary-to-CenterRefinementNetworkforMultitemporalRemoteSensingIm
Windows下的PaddleOCR本地部署 wangkun_cl 开源软件
目录一、环境配置（一）PaddlePaddle运行环境部署1.安装anaconda（网上教程很多很详细）2.创建环境3.激活环境并在该环境下安装PaddlePaddle框架4.下载requirments.txt中的库（二）PaddleOCR安装【非重点】二、在自己的数据集上训练模型（一）制作自己的数据集1.安装PPOCRLabel并为自己的数据打标签，构建数据集2.数据集的划分（二）训练1.文本检
神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练西猫雷婶人工智能 python学习笔记神经网络人工智能深度学习
【1】引言前序学习进程中，除了对基本的神经网络知识进行了学习，还掌握了SOM神经网络原理，文章链接包括且不限于：神经网络|(十一)|神经元和神经网络-CSDN博客神经网络|(十二)|常见激活函数-CSDN博客神经网络|(十三)|SOM神经网络-CSDN博客在此基础上，本篇文章学习一个新的神经网络：霍普菲尔德神经网络。【2】霍普菲尔德神经网络原理霍普菲尔德神经网络和SOM神经网络一样不走寻常路，SO
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比心心喵论文笔记论文阅读深度学习人工智能
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/
WebGPT: 基于浏览器辅助的问答系统，结合人类反馈优化答案质量土豆.exe 人工智能AI 人工智能算法机器学习
【摘要】本论文介绍了WebGPT，这是一种通过浏览器辅助问答系统来使用人类反馈进行训练和优化的模型。具体来说，该系统通过与基于文本的网络浏览环境互动，使模型能够搜索和导航网络，从而提高其回答长文本问题的能力。通过将任务设计为人类可以完成的任务，研究人员能够利用模仿学习和人类反馈来训练和优化模型。主要贡献包括：创建了一个基于文本的网络浏览环境，使得模型可以互动，从而改进了检索和合成。生成带有参考文献
数字识别项目不要天天开心机器学习人工智能深度学习算法
集成算法·Bagging·随机森林构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。集成算法·Stacking·堆叠：很暴力，拿来一堆直接上（各种分类器都来了）·可以堆叠各种各样的分类器（KNN,SVM,RF等等）·分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练实现神经网络实例利用PyTorch内置函数mnist下载数据。·利用torchvision对数据进
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

轻量化微调 Parameter-Efficient Fine-Tuning

导读

论文列表

参考文献

你可能感兴趣的:(Paper,paper,预训练)