偷懒不学习

Black-box Prompt Learning for Pre-trained Language Models

论文链接https://arxiv.org/pdf/2201.08531.pdf

Abstract

近年来，针对大型预训练模型的特定领域微调策略受到了广泛关注。在之前研究的设置中，模型架构和参数是可调的，或者至少是可见的，我们称之为白盒设置。这项工作考虑了一个新的场景，在这个场景中，除了给定输入的输出，我们无法访问预先训练的模型，我们称这个问题为黑盒微调。为了说明我们的方法，我们首先在文本分类中正式引入黑盒设置，其中预训练的模型不仅是冻结的，而且是不可见的。然后，我们提出了解决方案BLACKBOX prompt，这是PrompLearning家族中的一种新技术，它可以利用预训练模型从预训练语料库中学习到的知识。我们的实验表明，该方法在八个数据集上达到了最先进的性能。对不同人类设计目标、提示长度和直观解释的进一步分析证明了我们方法的鲁棒性和灵活性。

Introduction

大型预训练语言模型（PLM）在自然语言处理（NLP）方面取得了巨大成功，预训练和微调方法已成为一种标准范例。PLMs在自然语言理解（NLU）（Devlin等人，2019年；Liu等人，2019年）和自然语言生成（NLG）（Lewis等人，2020年；Zhang等人，2020年；Yang等人，2020年）的各种应用场景中显示出巨大的优势。在本文中，我们关注文本分类任务，这是NLU中一项探索性很强但很重要的任务，旨在识别给定句子的类别。之前的研究基于标准实践，即给定一个输入句子，使用标记的数据集（finetune）对预先训练的语言模型进行微调。然而，对大型PLM进行微调需要时间和能源消耗，这是许多研究人员无法做到的。例如，GPT-3（Brown等人，2020年）有1750亿个参数，在微调时会导致内存不足问题。更糟糕的是，我们需要为每个不同的下游任务微调一个模型，并将它们保存在磁盘上，这不仅笨拙，而且在我们有成千上万个不同的任务时也不可行。

因此，最近提出了一种新的方法，称为基于提示的学习（高等人，2021；刘等人，2021 b；Schick和Schu Zuz，2021；李和梁，2021；刘等人，2021 A），减轻了上述问题，并有几个好处。首先，我们只需要调整一小部分参数，而不是整个PLM，这更具成本效益。其次，可以设计基于即时的目标，以消除培训前任务和下游任务之间的差距。第三，使用很少的可调参数，它可以实现与微调方法相当的性能。目前大多数基于prompt的研究都集中在prompt的设计上，即prompt工程。所提出的方法是在白盒设置下进行的，在白盒设置下，预先训练的模型是可调的或至少是可见的，以便梯度可以反向传播以更新提示。白盒设置有几个问题。首先，不能在所有情况下都看到预先训练好的模型的参数。例如，研究人员无法获得一些商业产品，因此我们无法进行微调或白盒优化。即使我们可以访问预先训练过的模型，它也可能太大，无法将其（例如GPT-3）加载到资源有限的研究人员和组织的内存中。其次，在许多实际应用场景中，预先训练的模型部署在云中，而梯度计算不可用。因此，我们提出了一种称为“黑箱提示学习”的新设置，在该设置中，预先训练的模型既不可见也不可调整。唯一可调的权重是新添加的分类层和提示。为了解决这个问题，我们设计了一种黑盒快速学习方法，可以在不访问预训练模型参数的情况下使用。在两类数据集上的实验结果，即没有域转移的数据集和有域转移的数据集，证明了所提出的黑盒快速学习的有效性，与一般的预训练模型相比，该方法显著提高了性能，并且在八个数据集上优于所有基线模型。研究结果证实，对于预训练的模型，采用黑盒激励是一种有效的PLM自适应解决方案。我们还通过调查不同目标和提示长度的影响，提出了进一步的分析。我们的分析证明了该方法的鲁棒性和灵活性。

此外，我们还模拟了一个实际设置，其中有N个域（边缘设备），每个域都有黑盒提示。同时，在云端部署了一个预先训练好的模型，该模型是不可见且不可调整的。通过在四个选定的目标数据集上实现良好的性能，我们的方法在这种情况下被证明是有效的。这项工作的贡献可以总结如下：

我们提出了一种新的黑盒快速学习设置，我们只需要访问预先训练的模型的输入和输出，而不需要访问模型参数或模型梯度<\/br>

•我们提出了一种新的黑盒快速学习方法来解决这个新提出的问题，并证明了它在处理各种任务的领域转移方面的有效性<\/br>

•黑匣子提示经过优化，无需调整预先训练的模型，节省了微调成本。此外，与以前的方法相比，我们可以在更广泛的应用程序中执行微调，例如，当模型只能通过典型商业产品中的预测API访问时，或者在设备和云协作的设置中进行模型个性化。

Related Work

Prompts for Pre-trained Models

大型预训练语言模型非常重要，标准范例是在大型未标记语料库上预训练语言模型，然后在不同的监督任务上微调预训练模型。这种方法在很多下游任务上都有很大的改进，但这种方法有几个问题：

（1）微调需要更改模型的所有参数，这会导致计算成本的金钱和时间。

（2）它必须为不同的任务微调模型，并分别保存它们，这既笨拙又耗费资源。因此，我们迫切需要一种不需要调整大模型的方法，即基于promptbased的学习。根据提示的格式，基于提示的学习可分为两类：离散提示（江等人，2020；Yunn等人，2021；Havviv等人，2021；华勒斯等人，2019；Sin等人，2020；高等人，2021；Ben David等人，2021；Daveon等人，2019）和连续提示。（锺等，2021；秦和艾斯纳，2021；HabBaldZuMayin等人，2021；刘等人，2021b；Hand et al.，2021）。离散提示通常是一系列标记或自然语言短语，而连续提示被设计为一系列向量（嵌入）。然而，所有这些研究都局限于白盒环境，需要查看预训练模型的所有参数，以便梯度可以反向传播。因此，我们的方法“黑盒提示学习”扩展了这些研究，并提供了一个黑盒解决方案，它可以在不访问预先训练的模型的情况下优化提示。

Black-box Optimization

黑盒优化的一个应用是基于分数的黑盒对抗攻击（Ilyas等人，2018a，b；Huang and Zhang，2019；Andriushchenko等人，2020；Cheng等人，2019；Guo等人，2019），攻击者也看不到这些模型。这些研究使用零阶优化方法，如自然进化策略（NES）（Wierstra et al.，2014）来优化输入并增加损失，从而愚弄模型。我们的工作不是恶化模型在对抗性攻击中的性能，而是使用NES（自然进化策略(NES)是黑盒问题的一类数值优化算法。与进化策略的精神相似，它们通过遵循自然梯度向更高的期望适应度迭代更新搜索分布的(连续的)参数）来寻找更好的提示，并实现更高的准确性。这是黑盒优化方法的一个新应用。

The Approach

我们使用罗伯塔作为我们的骨架模型，输入是一个句子x= x1，x2···西···Xm，席席表示第i个令牌。n提示标记P=p1，p2。。，pn被预先挂接到输入语句来构造[P，X]，其中X中每个标记的表示由ROBERTA的原始嵌入函数计算。p1，p2，…，的嵌入。。，pn是要学习的连续自由参数。整个方法分为两个阶段：白盒阶段和随后的黑盒阶段。整体架构如图2所示。我们首先设置白盒阶段以提供可靠的参数初始化，然后引入黑盒训练阶段，通过优化提示中的数十到数百个参数，我们可以进一步提高性能。

WHITE-BOX Optimization

在白盒阶段，我们冻结罗伯塔，而其他参数则通过反向传播进行调整。如Wierstra等人（2014）所示，当目标函数位于低维空间时，大多数黑盒算法是有效的，不适合直接优化维度与LMs的隐藏大小（例如768）一样大的提示。因此，我们跟随李和梁（2021）初始化pi∈ Rd，并使用投影层F将其调整为Rd:pi=F（pi），其中D是LMs的隐藏大小，D<

BLACK-BOX Optimization

在进行黑盒训练时，我们冻结了分类器和F，只进一步优化了由白盒训练初始化的提示。我们采用自然进化策略（NES）（Wierstra et al.，2014）算法来完成黑盒训练。在黑盒阶段，渐变不能再反向传播到提示，这意味着不再可能通过计算来直接更新提示∇L（G（[p，x]，y）），其中x和y分别是输入和标签，p表示提示。NES使用以下迭代更新p：

其中η是提示的学习率，I是样本量，wi是从高斯分布N（pt，σ2）初始化的样本。如Huang和Zhang（2019）所示，1 I=1 Mi提供了梯度的近似值。

这里我们介绍了使用NES算法更新提示的详细过程。假设输入数据被分成T个批次，每个批次bt执行I次迭代。在第t批和第i次迭代中，我们首先从N（pt，σ2）中随机采样微扰wi，并使用投影层F将其映射到Rn×D。获得wi后，我们将其等待到bt的嵌入，并将[wi，bt]馈送到G，G表示由ROBERTA和分类层组成的主模型，然后我们用损失函数L来计算损失。Mi由lossi·（wi）计算− pt）\/σ。最后，通过平均所有Mi计算最终估计的梯度，提示pt由pt+1=pt更新− η·（1 I PI I=1 Mi）。算法1显示了我们提出的更新方法的训练过程。

Experimental Settings

在本节中，我们首先介绍数据集（§4.1），然后介绍基线模型（§4.2）和评估指标（§4.3）。最后，我们描述了实施细节（§4.4）。

Datasets

为了探索模型在常规分类任务和领域特定分类任务中的能力，我们包括GLUE benchmark的四个数据集（Wang等人，2018年）和Gururangan等人（2020年）之后的计算机科学、评论和新闻等特定领域的四个数据集；刁等人（2021年）。这些数据集的统计数据如表1所示。

Baselines

在我们的实验中，我们使用以下三个模型作为基线。

ROBERTA：一个现成的罗伯塔基础模型，重量冻结。对于下游任务，只更新新添加的分类层（分类器）。

ROBERTA+白盒提示（WP）：一款现成的ROBERTA基本型号，重量冻结。对于下游任务，只更新新添加的分类层（分类器）和提示。我们遵循PrompTuning Lester等人（2021）的方法，其中n个提示标记p1、p2、。。，pn被预先挂起到输入，p1，p2，…，的嵌入。。，我们都学会了。

ROBERTA+白盒提示+投影（WP.P）：一款现成的ROBERTAbase模型，重量冻结。初始化pi的嵌入∈ Rd和投影函数，即线性层或MLP，用于将pi投影到Rd中。提示p1、p2、。。，学习了投影函数和分类器的参数。

Evaluation Metrics

对于GLUE基准测试中的任务，我们采用Matthews相关系数表示COLA，F1score表示MRPC，RTE和WNLI按照其原始度量选择的准确性表示。继Diao等人（2021年）之后，我们采用macro-F1对亚马逊、引文意图、SCIERC和超级党派进行评估。

Implementation

对于所有实验，我们实现了ROBERTAbase架构，并通过Huggingface的Transformers library2使用预先训练好的权重对其进行初始化。培训和评估的批量大小分别设置为16和32。我们以5×10的学习率对我们模型的基线模型和白盒阶段进行了30个阶段的训练−4.采用的优化器是AdamW（Loshchilov and Hutter，2019）。对于ROBERTA+WP基线，我们遵循Lester等人（2021）的实施，提示的长度为6。对于白盒阶段，我们随机初始化提示符，其维度在{4,8,16,32}中，然后将其投影到一个带有线性层的768-d向量中。提示的尺寸与ROBERTA的隐藏尺寸相同。对于黑盒阶段，我们重新加载保存的模型，该模型在白盒阶段的开发集上获得最高分数，并通过优化提示对其进行训练。我们模型中包含的其他参数见附录。

Experimental Results

Overall Performance

在白盒和黑盒设置下，我们将ROBERTA模型与基于Prompt的ROBERTA进行比较。表2中报告了八个数据集的总体结果。首先，具有即时调优的模型的性能优于没有即时调优的模型，这表明即时调优在所有八项任务上都是有效的。具体来说，两个白盒提示学习模型ROBERTA+WP和ROBERTA+WP。P八个数据集的平均改善率分别为9.04%和10.57%。这一观察与先前的快速学习研究一致（李和梁，2021；Schick和Schu uz，2020；刘等人，2021 b）。其次，与白盒优化模型相比，黑盒优化在白盒优化的基础上带来了进一步的收益。黑盒优化有助于将性能平均提高约2.22%，这表明黑盒优化与白盒优化具有协同作用。在八项任务中，我们观察到，在域转移数据集上的黑盒优化与在一般域中的数据集一样有效。虽然众所周知，领域转移对于模型来说更难处理，但黑盒优化为特定领域的数据集提供了一个有效的解决方案。我们提供了黑匣子培训带来的绩效进一步提升的两个主要原因。首先，由于时间和资源的限制，白盒培训通常是不够的。其次，从技术上讲，不可能为每个数据集找到最佳的超参数集。因此，白盒训练的实际性能可能低于理论假设，为黑盒训练留下未来的优化空间。

总之，我们提出的两阶段优化（即白盒和黑盒）是调整大型预训练模型的有效解决方案。与ROBERTA相比，最终模型（白盒+黑盒）的性能平均提高了约12.79%，说明了在一般数据集和特定领域数据集上的有效性。

Performance in Transfer Learning

在本节中，我们在四个情绪分析数据集（即IMDB、CR、MR、MPQA）上进行实验，以验证黑盒训练在迁移学习中的能力。首先，我们使用SST-2作为Vu等人（2021年）之后的源数据集，并对其进行白盒训练。在白盒阶段之后，我们冻结主模型，并对每个目标任务执行黑盒训练，以仅更新提示。继Wang等人（2021年）之后，对于CR、MR和MPQA，我们随机抽取2000个实例作为测试集，并使用其余实例作为训练集。对于IMDB，为了减少训练数据的大小，我们遵循Diao等人（2021）的方法，对10%的训练集进行随机抽样。我们在两个基线模型上进行实验。第一个是直接在每个目标任务的训练集上训练分类层，第二个基线是训练分类层并在源数据集上进行提示，然后在每个目标任务的测试集上进行测试。

结果如表4所示。据观察，黑匣子训练的表现优于ROBERTA和ROBERTA+WP。P，这表明我们的黑盒方法在迁移学习环境下是稳健的。实验结果显示了我们的服务器设备部署方法的扩展潜力。在应用场景中，预先训练的大型模型太大，无法保存在设备上（例如手机），因此它们被部署在云端。为了根据用户的习惯调整模型，我们需要在设备上部署一个微型模型，并使用云端的渐变进行更新。通过我们提出的黑盒提示，我们节省了在云和设备之间传输梯度的成本，并且仍然实现了出色的性能。这实际上是一种很有前途的应用方法，尤其是当云上部署了N个边缘设备（域）和一个大型、不可见且不可调整的预训练模型时。我们可以简单地维护和更新每个设备的黑盒提示。

Conclusion

本文提出了一种新的文本分类设置，即黑盒提示学习，其中一个大的预训练模型是不可见的，因此梯度不能反向传播以更新提示。与标准的pretrain-then-fine-tune范例相比，我们的方法只需要更新很少的参数。与以前基于提示的方法相比，我们的方法不需要预先训练模型的可见性，因此在实际应用中提供了更大的灵活性。我们提出了一种黑盒提示学习方法，该方法使用NES算法来近似梯度，然后更新提示。实验结果表明，与基本方法相比，我们的方法在没有快速学习的情况下获得了很大的收益。与基于白盒提示的方法相比，我们的方法取得了进一步的改进，说明了黑盒优化的有效性。转移学习的实验显示了我们的方法在现实场景中的潜力，在现实场景中，预先训练的模型部署在云上，并且可以在每个设备上实现即时学习。此外，我们的方法不需要反向传播梯度，因此节省了计算和通信成本。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
【有啥问啥】刷爆各大榜单的Reflection 70B模型背后的错误自我纠正（Reflection-Tuning）技术解析：一种革新AI模型的方法 Chauvin912 大模型行业调研人工智能算法
刷爆各大榜单的Reflection70B模型背后的错误自我纠正（Reflection-Tuning）技术解析：一种革新AI模型的方法在快速发展的AI领域，尤其是大型语言模型（LLM）的竞争中，错误自我纠正技术（Reflection-Tuning）正逐步成为提升模型性能的关键突破。该技术通过赋予模型自我检测和纠正错误的能力，显著提高了输出的准确性和可靠性。本文将深入解析Reflection-Tunn
HALTT4LLM：大型语言模型的幻觉检测指标谢忻含Norma
HALTT4LLM：大型语言模型的幻觉检测指标haltt4llmThisprojectisanattempttocreateacommonmetrictotestLLM'sforprogressineliminatinghallucinationswhichisthemostseriouscurrentprobleminwidespreadadoptionofLLM'sformanyrealpur
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用You.com API进行LLM输出的事实性增强 aehrutktrjk python 开发语言
使用You.comAPI进行LLM输出的事实性增强引言大型语言模型(LLM)在生成人类可读的文本方面表现出色,但它们可能会产生过时或不准确的信息。You.comAPI是一套工具,旨在帮助开发者将LLM的输出与最新、最准确、最相关的信息相结合,这些信息可能不包含在LLM的训练数据集中。本文将介绍如何使用You.comAPI来增强LLM的输出,提高其事实性和时效性。You.comAPI的设置和使用安装
如何从大型语言模型(LLM)流式响应 aehrutktrjk 语言模型 microsoft ajax python
引言随着大型语言模型(LLM)的不断发展,我们不仅能够获得高质量的文本生成结果,还可以实时观察模型生成文本的过程。流式响应允许我们以一种更加交互和动态的方式与LLM进行交互,这在某些应用场景中非常有用。在本文中,我们将探讨如何从LLM流式获取响应。基础知识在开始之前,我们需要了解一些基础概念。所有的LLM都实现了Runnable接口,该接口提供了一些默认实现的标准方法,如invoke、batch、
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio