火云明月

自然语言处理领域的数据增广方法

1.摘要

本文介绍自然语言处理领域的数据增广方法。数据增广（Data Augmentation，也有人将Data Augmentation翻译为“数据增强”，然而“数据增强”有将数据进行强化之意，而不仅是数量扩充。因此我们将其翻译为“数据增广”，单纯表示扩大数据规模。）是自动扩充训练数据的一种技术。如今深度学习取得了令人瞩目的成功，但是深度学习模型需要有大量的标注数据进行支撑。真实应用情景中，经常会出现缺乏标注数据、数据分布不均衡导致模型鲁棒性差、模型性能不佳的问题，而数据增广能在一定程度上解决这些问题。

为什么数据增广会为模型带来性能提升呢？在扩大数据的数量使模型能够充分训练的表象之下，主要包含以下几个原因：

1）数据增广引入了外部知识

人工的先验知识，如将图片翻转之后图片类别不变，句子中动词的缩写展开变为原型语义不变等。
领域外知识，如使用预训练的生成器生成新的样例时，引入了预训练模型中丰富的知识。

2）防止过拟合

通过向数据中加入随机噪声，提升模型鲁棒性。
通过扩大数据的数量，使其更加平滑。

2.方法综述

数据增广最早应用在CV领域，如对图片进行翻转、旋转、缩放、平移等。近年来，出现了更为复杂的CV数据增广方法，如图片风格迁移Luan et al.(2017)[1]（如图1）。

图1 通过风格迁移得到增广图片(Luan et al.(2017)[1])
相较于数据增广在CV领域的广泛应用，其在NLP领域的应用较少。这是因为与图片的连续性表示不同，自然语言的表示是离散的、符号化的。这导致如翻转等简单的数据增广操作在NLP中失效。同时，自然语言中顺序信息十分关键，比如“小博吃了苹果”与“苹果吃了小博”是完全不同的含义。因此NLP领域中，需要尝试更复杂、更有挑战性的方法进行数据增广。

NLP领域中短文本常见的数据增广方法包括两大类（如图2）：

标签无关的通用增广方法不需要提供数据标签、任务需求等信息，只基于无标签的训练数据即可按照规则实现数据增广。
标签相关的特定增广方法则利用标签信息、按照任务需求进行增广，且需要考虑增广数据的标签相比于原数据标签是否变化的问题。

图2 自然语言处理中的数据增广方法分类
以下对各类数据增广方法进行介绍：

2.1单词替换

该方法通常利用近义词替换文本中的原始单词，从而在保持文本语义尽量不发生改变的前提下，得到新的表述方式。

2.1.1基于近义词表的替换

这种方法使用近义词表，将句子中的部分单词利用其近义词替代，使增广数据尽量贴合原始语义。Zhang et al.(2015)[2] 和Jonas et al.(2016)[3] 使用来源于WordNet[4]的英语词库mytheas来自动进行近义词替换，该词库将单词的近义词按照相似度进行排序。对于每个句子，检索出该句中拥有近义词的所有单词，按照几何分布P [r] ~ pr采样其中的r个，并分别用其第s个近义词替换，s也由几何分布决定：P [s] ~ ps 。这种方法保证了用更大的概率选中与原始单词更相似的近义词。Wei et al.(2019)[5]同样使用WordNet作为近义词表，从句子中随机选择N个非停用词，N的大小与句子长度成正比，在它们的近义词中分别随机选择一个替换对应的原始单词。以下图3为基于近义词表进行单词替换的例子。

图3 基于近义词表的替换
基于近义词表的单词替换方法简单且方便，但是由于近义词表的限制，这种方法仍有一定局限性：
近义词表的规模有限，因此句子中能够利用近义词表进行替换的单词范围同样有限。
近义词表包含的单词词性有限，如WordNet中只包括名词、动词、形容词、副词四类，其他词性的单词无法通过近义词表进行替换。
近义词表中存在一词多义的情况，但是替换时难以判断原始单词在句中对应哪个词义，因此随机选择的新单词词义有可能与原始词义不符，使得增广数据的句义发生改变。
该方法以单词为单位进行替换，不同单词的替换过程相互独立。因此当一个句子的替换次数过多时，有可能损害语义流畅度。

2.1.2基于词向量的替换

这种方法克服了基于近义词表的替换方法中对替换范围和单词词性的限制，采用预训练好的词向量，如Glove、Word2Vec、FastText等，用向量空间中距离原始单词最近的词将其代替。

在推文的文本分类任务中，由于Twitter的消息通常简短且噪声较多，同时每个类别的训练数据都相对匮乏，因此Wang et al.(2015)[6]引入连续的词向量来增强文本的多分类任务，来保证增广数据的多样性。如图4，对原始单词用余弦相似度最高的K个单词（k nearest neighbors）代替，如“Being late is terrible”变为“Being behind are bad”。同时类别标签不变。

图4 基于词向量的替换
Liu et al.(2020)[7]在邮件分类任务中结合了基于近义词表和基于词向量的单词替换方法。首先基于词向量的相似度，为词表中的每个单词建立其最相关单词的字典。之后根据WordNet对这个字典进行修正或补充，如删除掉字典中不合理的缩略词，和添加字典中不存在的近义词。最后对句子中每个单词按照0.5的概率替换为它的近义词，同时每个近义词被选择的概率为0.2，以此得到该电子邮件的增广数据。图5为单词及其替换词字典的示例，图6为使用单词替换方法对邮件中数据进行增广的示例。

图5 邮件中单词及其替换词字典(Liu et al. 2020)[7])

图6 邮件分类任务中使用单词替换的方法进行数据增广(Liu et al. 2020)[7])
基于词向量的替换方法无需额外训练，且解决了近义词表只能应用于特定范围内单词的问题。但是，该方法同样面临一些问题：

Wrod2Vec等静态的词向量对于每个单词只有一种表示方式，无法解决一词多义的情况。
该替换方法同样以单词为单位，与基于近义词表的方法类似，当一个句子的替换次数过多时，仍有可能损害语义流畅度。

2.1.3基于掩码语言模型的替换

预训练语言模型凭借其出色的性能，成为近年来的主流模型。BERT、BoBERTa等掩码语言模型通过预训练的方式，获得了根据上下文预测文本中被mask的词语的能力，可用于文本的数据增广。具体来说，将文本中的部分单词用[MASK]替换，用训练好的掩码语言模型对该位置的单词进行预测，补全句子信息。

Jiao et al.(2019)[8]先对每一条原始数据使用BERT自带的分词器进行分词，得到若干word piece，为每一个word piece构建其替换词的候选集合，其中构建替换词集合的过程包括前文的基于词向量的方法，以及基于掩码模型的方法。具体来说，如果该word piece不是完整单词，则利用Glove检索与其相似度最高的K个单词组成候选集合；如果该word piece是完整单词，则用[MASK]将它代替并用BERT预测出K个单词组成候选集合；最后以0.4的概率决定每个word piece是否被候选集合中随机一个词替换。下图7为基于掩码模型进行单词替换的示例。

图7 基于掩码模型的替换
与前面两种方法相比，掩码语言模型在预测时考虑到上下文信息，克服了一词多义的问题，因此能够生成语义更通顺的句子。但是，这种方法往往需要启发式的方法确定mask的位置，以保证增广语句不偏离原始语句的语义。
整体来说，单词替换是单词级别的增广方法，着重对单个单词的独立更改。这种方法的优点包括操作简单、适用性强，不需要通过模型学习和大规模训练数据就可进行增广。缺点包括这种方法通常基于近义词进行增广，得到的增广数据丰富度有限；增广语句的语义可能不流畅或相对原始数据发生变化。

2.2回译（Back translation）

这种方法是指原始文档通过翻译变为其他语言的文本，然后再被翻译回来得到原语言的新文本。与单词替换的方法类似，回译产生的增广数据与原始数据的语义尽量相同。不同的是，回译不直接基于同义词关系对单个单词逐一替换，而是通过生成的方式复述句子，达到了数据扩充的目的。

Xie et al.(2019)[9]使用WMT’14的英语-法语翻译模型（双向）对句子进行回译。Luque et al.(2019)[10]则在英语、法语、葡萄牙语和阿拉伯语之间进行翻译。Zhang et al.(2020)[11]在风格迁移任务中引入数据增广，将非正式的原始英语数据翻译成法语，再重新翻译成英语，得到原始数据的正式表达。图8为“英-中-英”的回译示例。

图8 “英-中-英”的回译示例
整体来说，回译方法产生的增广数据要尽量与原始数据语义相同，该方法具有以下优点：

操作简单，适用性强。

可直接调用现有的翻译模型，无需进行训练。

相比于单词替换的方法，回译直接用模型生成增广数据，保证了增广数据的语法正确、语义流畅，且不偏离原始句义。

相比于单词替换的方法，回译除了利用近义词进行增广以外，还可通过翻译模型引入其他信息，如句式变换、单词缩写、行文风格等，提升增广数据的多样性。

同时，该方法同样存在一定缺点：

受到翻译模型和输入语句的影响，少数条件下回译的结果与原始句子相同（相当于未进行增广）。

由于这种方法依赖固定的端到端翻译模型，导致其增广结果的可控性较差，无法根据任务需求进行调整、提供有针对性的输出，如保留原始数据中某一单词不变。

由于回译的本质是复述，因此增广数据相比于原始数据的内容变化有限，在对训练数据多样性要求较高的场景中，不能很好地满足需求。

2.3加入噪声

单词替换、回译方法的重点是使增广数据尽量与原始数据相似，构造更多类似于原始数据的新数据。与之相比，加入噪声的方法则为文本添加不太影响语义的微弱噪声，使之适当偏离原始数据，在扩大训练数据量的同时，提高模型的鲁棒性。人类通过对语言现象及先验知识的掌握，可以大大降低微弱噪声对语义理解的影响，但这种噪声可能为模型带来挑战。以下将对该方法以文本形式、顺序、语义三个方面进行介绍。

2.3.1文本形式相关的噪声

单词级别的缩写还原、句子级别的句式转换（如主动变被动）虽然给语句的形式带来一定改变，但未对语义产生影响。将原始数据按照规则进行合理的形式变换，得到的增广数据将带有形式变化的噪声，提升模型对句式的把握。

（1）单词级别的简单模式匹配变换

Be动词、情态动词、否定等缩写和原型间的转换属于简单模式匹配变换(text surface transformation)，这种单词级别的语言现象虽然在形式上发生变化，却不改变语义。Coulombe et al.(2018)[12]介绍了使用正则表达式对英语中的简单模型进行变换，如通过一些固定的规则在be动词、情态动词和否定等的缩写和原型之间变换。图9为be动词的缩写、原型间的变换示例。

图9 简单模式匹配变换示例
需要注意的是，有些缩写对应多种原型表示，此时盲目转换会带来错误，如图10。对于这种情况，可避免缩写展开的方法，仅使用原型收缩为缩写的规则，保证准确。

图10 原型收缩为缩写不会出错，而缩写展开为原型则有可能导致语义变化
（2）句子级别的语法树变换

该方法首先得到整个原始句子的依存树，并基于依存树使用规则对句子进行转换，来得到语法正确、语义不变的增广数据。相比于原始数据，该方法产生的增广数据携带有句式相关的噪声。

Coulombe et al.(2018)[12]介绍了这种通过依存树进行数据增广的方法：基于一个句子的依存树，按照规则进行转换，能够保持新句子的语法正确（如图11）。Min et al.(2020)[13] 借鉴了这种思想，如利用规则替换原句的主语宾语、将主动语态变为被动语态等。

图11 将主动语态变为被动语态不影响原始句义
引入文本形式相关的噪声，即进行单词级别的简单模式匹配变换或句子级别的句式变换。它能够保证数据的语义不发生改变，同时增加模型对文本相应形式的鲁棒性。这种方法通常需要人为设计转换的规则，可控性强，同时增广过程直接可靠。

2.3.2文本顺序相关的噪声

自然语言的语义对文本顺序信息敏感，如句子内不同单词的顺序和篇章内不同句子的顺序决定了句子或篇章的语义。但同时，如果在合理的范围内对文本顺序进行少量的调换[14]，其结果对于人类而言仍然是可读的，即可通过阅读调换了语序的文本来理解原始文本的语义（如图12）。因此，少量的顺序调换可作为数据增广的方法，向模型引入文本顺序相关的噪声。

图12 对句中单词的顺序进行少量调换，不影响人类的阅读
（1）单词级别的文本顺序交换

该方法是指句子中不同单词之间进行顺序交换，如Wei et al.(2019)[5]提出了名为EDA的文本分类任务数据增广工具包，除了包括前文提到的近义词替换方式，也包括单词随机交换的方法，如图13。该工作在句子中随机选择两个单词并交换位置，重复n次。其中，随机交换的次数n与句子长度l成正比，即n=αl。

图13 单词级别的随机交换
（2）句子级别的文本顺序交换

该方法是指篇章中不同句子之间进行顺序交换，如Yan et al.(2019)[15]使用随机排序的方法对法律文书进行句子级别的操作，如图14。由于句子独立地包含了相对完整的语义，且文书中句子的顺序对原始文本的含义影响不大，因此将句子打乱顺序进行随机排列，从而得到增广文本。

图14 对法律文书使用随机插入、删除、排序的增广方法（Yan et al. 2019[15]）
引入文本顺序相关的噪声，对句子和篇章分别进行适量的单词级别、句子级别的顺序调换，对语义的影响有限。使用这种方法需要合理设置顺序交换的次数和对象，保证增广数据的语义不过分偏离原始数据。

2.3.3文本语义相关的噪声

这类方法通常指通过单词或句子级别的删除、插入、替换等操作，为原始语料带入语义相关的噪声。

（1）基于随机删除的文本语义噪声

该方法包括“单词级”和“句子级”两种层次的删除操作，分别表示在句子中随机删除单词和在篇章中随机删除句子。

在单词级别的方法中，Wei et al.(2019)[5]按照概率p随机删除原始句子中的每个单词（如图15）。Xie et al.(2017)[16]借鉴了“word-dropout”的思想，随机删减句子中的部分单词避免模型过拟合，但与Wei et al.(2019)[5]不同的是，该工作用“_”作为占位符替换被删除单词的位置，表示该位置的信息为空。Yu et al.(2019)[17]包括单词、句子两种层次的删减，在单词级别上，首先对一条语句做attention，来衡量句子中不同单词的重要程度。根据该重要程度对句子中的单词进行删减：将重要性低于一定阈值的单词按照0.5的概率随机删除，剩下的单词互相拼接作为单词级别的增广数据（WordSet）。

图15 单词级别的随机删除
在句子级别的方法中，与前文单词级别的随机删除类似，Yu et al.(2019)[17]在句子级别同样使用attention来衡量篇章中每个语句的重要性：对于包括10个及以上句子的篇章，首先对其做句子级别的attention，之后直接抽取出最重要的若干条语句，互相拼接作为句子级别的增广结果（SentSet）。同时，该工作随机抽取相同数量的WordSet和SentSet得到包含两种增广层次的HybirdSet。Yan et al.(2019)[15]在法律文书分类任务中同样运用随机删除的方法：由于文书包含许多不相关的陈述，删除它们不会影响对案例的理解，因此该方法按照一定概率随机删除原始文书中的一个句子（如图14）；如果原始文书仅包含一个句子，则不进行任何处理。

（2）基于随机插入的文本语义噪声

此处仅对单词级别的随机插入方法进行介绍，由于句子级别的随机插入需要提供标签信息，因此将其划入另一种类别的增广方法，并在后文介绍。

Wei et al.(2019)[5] 的EDA工具包中包括单词级别随机插入的方法，如图16。给定一条语句，选择其中一个非停用词，通过WordNet得到该单词的任意一个近义词，并将近义词插入句子中的任意位置，重复n次。其中，次数n与句子长度l成正比，即n=αl。

图16 单词级别的随机插入
（3）基于随机替换的文本语义噪声

此处仅对单词级别的随机替换方法进行介绍，由于句子级别的随机替换需要提供标签信息，因此将其划入另一种类别的增广方法，并在后文介绍。

Coulombe et al.(2018)[12]介绍了引入常见拼写错误的文本作为增广数据，来模拟真实文本中包含此类噪声的情况，从而使模型对这种特殊类型的文本噪声变得更加鲁棒。英语中常见的拼写错误列表可以通过 Oxford Dictionaries的在线资源得到：https://en.oxforddictionaries.com/spelling/common-misspellings

文本分类任务中，不同单词对分类预测的贡献不同，为了避免增广数据干扰分类准确性，Xie et al.(2019)[9]保留句中对分类结果影响较大的keywords，同时将其他普通单词随机替换为整个词表中的非keywords单词。该工作使用TF-IDF值评估单词重要性，该单词被替换的概率与其重要性负相关。在替换过程中，使用整个词表中的非keywords单词替换该原始单词：使用频率和IDF值计算词表中每一个单词的重要性，归一化后作为使用该单词替换的概率。

与Xie et al.(2019)[9]类似，Xie et al.(2017)[16]同样使用词表中的其他单词替换原始单词。该工作通过unigram 频率分布采样得到其他单词（如图17），将新单词作为噪声替换原始单词，产生增广数据。其中，unigram频率可通过单词在训练语料中的出现次数得到。

图17 通过unigram频率加入噪声
引入文本语义相关的噪声可通过随机删除、插入、替换的方式完成。与引入文本顺序的噪声类似，少量的语义噪声不会对数据语义造成严重干扰。

其中，随机删除不涉及标签信息，因此可分为单词级别和句子级别的操作。而随机插入和随机替换的方法引入了新的信息，为了保证标签不变，单词级别的插入和替换可利用标签无关的外部词表和语料词表；句子级别的插入和替换则需要对相同标签的其他样本句子进行操作。由于句子级别的随机插入和替换方法考虑了数据的标签，我们将其单独作为一个增广类别（下文介绍），以区分不考虑标签信息的引入噪声方法。

加入噪声的方法为文本添加不太影响语义的微弱噪声，使之适当偏离原始数据，该方法有以下优点：

引入人类的语言学先验知识，提升模型的鲁棒性。

该方法灵活、可控，可根据任务需求、数据集的情况选择适合的噪声种类。

无需训练，不需要考虑标签信息，简单方便。

同时，该方法有以下缺点：

需要人为合理选择噪声的种类、来源，控制噪声的比例，否则会对增广数据的质量造成影响。

该方法对文本的改动较为局限，得到的增广数据多样性不足。

2.4基于同标签样本的句子级文本语义噪声

如前文所述，通过“随机插入”和“随机替换”方法引入文本语义噪声时需要保证噪声不改变数据标签。在单词级别上，通常使用标签无关的外部词表或语料词表；在句子级别上，通常使用相同标签的其他样本句子。由于句子级别的随机插入和随机替换方法考虑了数据的标签，我们将其单独作为一个增广类别，以区分上文不考虑标签信息的引入噪声方法。

2.4.1基于随机插入的文本语义噪声

由于具有相同指控的案件在其文书中有很多相似的句子，Yan et al.(2019)[15]在法律文书分类的任务中使用句子级随机插入的方法，即随机选择带有相同标签的其他样本中的句子插入原始样本，得到新的数据（如图14）。

2.4.2基于随机替换的文本语义噪声

Luque et al.(2019)[10]在推文情感分析的任务中，将标签相同的推文分别分成两半，给定一个原始的前半段推文，在后半段推文的集合中随机采样，并与该原始前半段推文拼接，得到新数据。虽然这样产生的数据可能包括不完整的句子，相比于单个单词，它仍携带相对完整的语义和情感极性（如图18）。

图18 给定上半段推文，随机选择其他推文的下半段来替换原始推文的下半段
整体来说，加入基于同标签样本的句子级文本语义噪声比较简单，无需训练，只需要找到合适的相同标签其他样例即可操作。

2.5生成式模型

与前文利用掩码语言模型进行单词替换的方法和回译方法不同，生成式模型并非直接使用已有的模型补全被mask的单词或生成增广语句，而是根据任务相关的启发式信息训练模型，再有针对性地生成增广数据。与基于同标签样本的句子级文本语义噪声方法类似的是，生成式模型同样引入标签信息，来保证生成的增广数据的标签不变。

Hou et al.(2018)[18]针对任务型对话系统的语言理解模块，提出了seq2aeq的数据增广模型。给定一条原始样例，首先通过抽槽对句子进行去多样化操作，将目标多样化等级（如1，2，3）以token的形式加入语句表示。将原句及多样化等级共同作为输入送入Seq2Seq模型中，生成新的语句，最后对其进行填槽操作从而得到增强数据。该增广方法的流程如图19所示：

图19 将多样化等级加入到增广过程中(Hou et al.(2018)[18])
大多Seq2Seq增广方法的输入与输出序列都是单一的句子，因此倾向于生成重复的增广数据，限制了数据增广的有效性。针对这个问题，Hou et al.(2020)[19]在槽位填充任务中提出了C2C-GenDA模型（如图20），给定具有相同语义框架的一组句子（input cluster），模型一次性生成多个新句子（output cluster），从而解决前人工作的多样性不足问题。该方法的生成模型基于Transformer的编码器和解码器，在编码时采用特殊符号拼接输入中的句子；在解码时使用多个共享参数的解码器同步生成多个新句子。同时，通过注意力机制为模型提供编码器及解码器的表达方式信息，对重复的生成进行惩罚，并通过损失函数鼓励模型生成更多样的句子。

图20 Cluster2Cluster的生成式数据增广方法(Hou et al.(2020)[19])
Tavor et al.(2020)[20]和Kumar et al.(2020)[21]使用GPT-2、BERT、BART等多种预训练语言模型进行增广。首先基于现有的少量数据训练得到基线分类器h，并利用对预训练语言模型G进行微调得到增广数据生成器。利用生成带有标签的新数据，用基线分类器h过滤掉不合理的新数据，从而保留增广样本的稳定性，最后将增广样本与原始样本混合再重新训练分类器。选择预训练语言模型作为增广数据生成器的优点在于，它们通过在大量文本上的预训练，对自然语言的结构有着比传统模型更为深入的掌握和理解，所以能基于有限的数据产生较为连贯的句子。
Li et al.(2020)[22]在序列标注任务中使用掩码语言模型进行数据增广，如图21。该方法克服了前人工作中增广数据的序列标签与原始数据序列标签不匹配的问题，以及增广数据丧失原始数据包含的情感、观点而变为普通陈述句的问题。该工作随机增广长度大于5的训练数据，数据被采样的概率与其长度正相关。每条原始数据中，数量为句子长度一半的连续单词被[MASK]替换，但是保持序列标签中非O标签对应的单词不变。将这些被mask的句子与其序列标签一起作为模型的输入，训练模型重建这些被mask掉的内容。训练完成后，将该模型作为增广数据的生成模型，输入被mask的训练样本及其序列标签，利用模型补全被mask的单词得到完整句子，作为增广后的新数据。通过这种方法，能够利用无限的领域外表述方式和知识，在保证新数据序列标签有效性的同时，得到表达方式更多样的新数据。

图21 将被mask的句子及序列标签输入模型，补全mask得到完整句子(Li et al.(2020)[22])
整体来说，生成式模型包括以下优点：

相比于单词替换、加入噪声等方法只能对数据进行局部的调整，生成式模型可以通过训练直接按照需求生成或补全完整句子。

相比于回译，生成式模型更为可控。

通过设计优化目标和利用预训练模型本身具有的丰富知识可以保证增广文本的多样化。

同时，它也具有一些缺点：

该方法需要一定量的数据保证模型的训练。

由于需要人为设计优化目标，以引导模型生成有效的增广数据，因此该方法不如单词替换等方法操作简单。

2.6Mixup方法

运用前面5种方法进行数据增广并投入任务训练可分为三步：（1）人为指定增广规则或通过训练得到增广模型；（2）利用固定的规则或模型对原始文本做数据增广，得到自然语言形式的增广数据；（3）将原始数据和增广数据一起输入任务模型进行训练。与之不同的是，Mixup方法可以将三个步骤合在一起：直接将原始数据输入任务模型，增广步骤随着训练过程同步进行，得到的词向量形式的增广数据直接与原始数据一起参与模型的训练。

整体来说，Mixup方法与之前的方法有三点不同：（1）Mixup的增广过程与任务模型的训练不是独立的，而是包含并贯穿在任务模型训练过程中。因此按照增广过程与任务模型训练的相对关系， Mixup的增广方法是在线的（online），而前面的生成式模型方法是离线的（offline）；（2）Mixup方法不会显示地得到自然语言形式的增广数据，而是在模型中隐式地得到词向量形式的增广数据；（3）Mixup方法不局限于增广某一特定标签的数据，而是能生成跨标签的增广数据。

Mixup的思想首先出现于图像领域。Zhang et al.(2017)[23]在图像分类任务中提出了简单有效的Mixup增广方法，将两张图片及其标签的向量表示分别进行混合得到新样本，该方法能够提升模型的鲁棒性。受到该工作的启发，Guo et al.(2019)[24]将Mixup思想引入NLP领域，根据插值位置的不同，提出了两种方法（如图22）：wordMixup直接对输入的词向量进行插值混合，而sentMixup在对输入句子进行编码得到句子embedding之后，才进行插值混合。

图22 将mixup引入自然语言处理:sentMixup与wordMixup
具体来说，先将两个句子padding到相同的长度，分别得到其d维的词向量表示, ∈ 。对于句子中的第t个单词，wordMixup通过以下公式得到新句子的插值表示后，将其输入模型进行训练。

而对于sentMixup，首先使用编码器对词向量, 编码得到隐藏层的句子表示, ，再通过以下公式对两者进行插值（如对第k维操作），最后进行分类。

值得注意的是，wordMixup和sentMixup两种方法的预测阶段同样将两条原始数据的标签进行插值混合后再计算损失：

Cheng et al.(2020)[25]在机器翻译任务中，将两条样例先按照单词替换的方法得到对抗样例，之后提出两种mixup方法（如图23）：在同一条原始数据的对抗样本之间进行插值（通过下图直线三角插值得到虚线三角），和在两条原始文本之间进行插值（通过下图实心圆圈插值得到虚线圆圈），以此得到新的数据。

图23 在样例间插值得到增广表示(Cheng et al.(2020)[25])
Mixup的方法是一种较新的增广方式。这种方法有以下优点：

通过细粒度的词向量对输入数据甚至标签进行插值混合，能够得到更为平滑的增广数据。

该方法不受数据标签的限制，可跨标签增广。

同时，它也具有一定缺点：

Mixup方法需要对模型进行训练，且其增广数据不是直观的自然语言形式，因此该方法的难度高于单词替换、回译、加入噪声等方法。

对被插值数据之间的相似度等有一定的要求，因此需要人为预先设定。

3.分析

3.1效果分析

尽管近些年自然语言处理领域出现了多种数据增广方法，但是很难直接比较它们的性能。这是因为不同的任务类型适合不同的增广方法，同时不同的工作常常在不同的数据集上验证自己的表现，这导致它们的任务类型、评价指标、数据集大小、数据集标签等难以统一。另外，有些工作仅仅利用数据增广来进一步提升性能，数据增广并非它们的核心贡献。此时模型性能的提升也要考虑到不同的模型设计和超参数配置，不能直接用于数据增广方法效果的比较。因此，我们基于上文介绍的工作，通过不同的任务类型来对数据增广方法进行分析（以各类任务可使用增广方法的数量排序）。

文本分类：已有的所有6类数据增广方法广泛应用于文本分类任务中，且文本分类任务在绝大部分增广方法对应的工作中数量都是最多的。常见的任务及数据集包括：综合文本分类数据集GLUE，普通文本分类数据集IMDb、TREC、Sub，自然语言推理数据集SICK、MNLI，情感分析数据集TASS 2019、推特语料，等等。文本分类任务通常直接考察模型对语义的理解，同时其重点在于文本中影响分类的核心单词。而现有的大多数增广方法（单词替换、回译、生成式模型、Mixup）都能尽量控制增广数据的语义贴近原始数据。即便是加入噪声的方法也可通过人为控制，使新数据的语义变化在合理范围内。

文本生成：文本生成任务通常使用回译、引入噪声、Mixup的方法。在文本风格迁移任务中，Zhang et al.(2020)[11]面临GYAFC数据集（在正式及非正式文本间迁移）样例不足的问题，因此该工作收集推特语料作为非正式文本，利用机器翻译模型生成对应的正式文本。在机器翻译任务中，Xie et al.(2017)[16]和Cheng et al.(2020)[25]分别使用文本语义噪声和Mixup的方法使IWSLT、NIST和WMT等数据集中的数据更加平滑。

序列标注：本文所介绍的序列标注任务只应用了生成式模型的方法，这是因为序列标注任务的标签是token而非句子级别的，因此单词替换、回译等其他方法不适用于该任务。生成式模型的可控性较强，可通过人为规定的优化目标输出满足需求的增广数据。常见的序列标注任务及其数据集包括：任务型对话系统任务中语言理解模块的ATIS和SNIPS数据集，和细粒度情感分析的子任务Aspect Term Extraction的SemEval-2014 Task 4数据集。

语言建模：语言建模基于给定的部分句子预测下一个单词，是自然语言处理的基础任务之一。Xie et al.(2017)[16]构建了基于文本语义噪声数据的递归神经网络语言模型，证明了噪声能带来平滑的效果。其中空白噪声包含的mask思想对语言建模的提升，在BERT中也得到类似的印证。

3.2方法比较

基于以上内容，我们对6种自然语言的数据增广方法按照多个维度进行归纳、分析及总结，如表1。
表1 自然语言数据增广方法总结

4.总结

数据增广方法通过扩大训练数据的数据量，能有效提升模型的性能和鲁棒性。本文介绍了6类NLP中的数据增广方法，它们又可分为两大类，包括标签无关的通用方法（单词替换、回译、引入噪声）和标签相关的特定方法（同标签文本语义噪声、生成式模型、Mixup方法）。未来NLP领域的数据增广将变得更复杂，加入外部知识[21]、使用更复杂的方法[25]、生成模型[18] ，甚至元学习等[26][27] 都将成为潜在趋势。

参考资料

[1]
Luan F, Paris S, Shechtman E, et al. Deep photo style transfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4990-4998.

[2]
Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015, 28: 649-657.

[3]
Mueller J, Thyagarajan A. Siamese recurrent architectures for learning sentence similarity[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016, 30(1).

[4]
Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.

[5]
Wei J, Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks[J]. arXiv preprint arXiv:1901.11196, 2019.

[6]
Wang W Y, Yang D. That’s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using# petpeeve tweets[C]//Proceedings of the 2015 conference on empirical methods in natural language processing. 2015: 2557-2563.

[7]
Liu S, Lee K, Lee I. Document-level multi-topic sentiment classification of Email data with BiLSTM and data augmentation[J]. Knowledge-Based Systems, 2020: 105918.

[8]
Jiao X, Yin Y, Shang L, et al. Tinybert: Distilling bert for natural language understanding[J]. arXiv preprint arXiv:1909.10351, 2019.

[9]
Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.

[10]
Luque F M. Atalaya at tass 2019: Data augmentation and robust embeddings for sentiment analysis[J]. arXiv preprint arXiv:1909.11241, 2019.

[11]
Zhang Y, Ge T, Sun X. Parallel Data Augmentation for Formality Style Transfer[J]. arXiv preprint arXiv:2005.07522, 2020.

[12]
Coulombe C. Text data augmentation made simple by leveraging NLP cloud APIs[J]. arXiv preprint arXiv:1812.04718, 2018.

[13]
Min J, McCoy R T, Das D, et al. Syntactic data augmentation increases robustness to inference heuristics[J]. arXiv preprint arXiv:2004.11999, 2020.

[14]
Reading Chinese script: A cognitive analysis[M]. Psychology Press, 1999.

[15]
Yan G, Li Y, Zhang S, et al. Data Augmentation for Deep Learning of Judgment Documents[C]//International Conference on Intelligent Science and Big Data Engineering. Springer, Cham, 2019: 232-242.

[16]
Xie Z, Wang S I, Li J, et al. Data noising as smoothing in neural network language models[J]. arXiv preprint arXiv:1703.02573, 2017.

[17]
Yu S, Yang J, Liu D, et al. Hierarchical Data Augmentation and the Application in Text Classification[J]. IEEE Access, 2019, 7: 185476-185485.

[18]
Hou Y, Liu Y, Che W, et al. Sequence-to-sequence data augmentation for dialogue language understanding[J]. arXiv preprint arXiv:1807.01554, 2018.

[19]
Hou Y, Chen S, Che W, et al. C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling[J]. arXiv preprint arXiv:2012.07004, 2020.

[20]
Anaby-Tavor A, Carmeli B, Goldbraich E, et al. Do Not Have Enough Data? Deep Learning to the Rescue![C]//AAAI. 2020: 7383-7390.

[21]
Kumar V, Choudhary A, Cho E. Data augmentation using pre-trained transformer models[J]. arXiv preprint arXiv:2003.02245, 2020.

[22]
Li K, Chen C, Quan X, et al. Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation[J]. arXiv preprint arXiv:2004.14769, 2020.

[23]
Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.

[24]
Guo H, Mao Y, Zhang R. Augmenting data with mixup for sentence classification: An empirical study[J]. arXiv preprint arXiv:1905.08941, 2019.

[25]
Cheng Y, Jiang L, Macherey W, et al. Advaug: Robust adversarial augmentation for neural machine translation[J]. arXiv preprint arXiv:2006.11834, 2020.

[26]
Hu Z, Tan B, Salakhutdinov R R, et al. Learning data manipulation for augmentation and weighting[C]//Advances in Neural Information Processing Systems. 2019: 15764-15775.

[27]
Cai J, Shen S M. Cross-Domain Few-Shot Learning with Meta Fine-Tuning[J]. arXiv preprint arXiv:2005.10544, 2020.

你可能感兴趣的:(自然语言处理,自然语言处理,数据增强)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
YOLOv8数据增强热心小张研究生 yolov8
1.找到augment.py（ultralytics/data/augment.py），修改对应内容#TransformsT=[A.Blur(p=0.01),A.MedianBlur(p=0.01),A.ToGray(p=0.01),A.CLAHE(p=0.01),A.RandomBrightnessContrast(p=0.0),A.RandomGamma(p=0.0),A.ImageCompr
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri