晴空^_^

Attacks in NLP

一、 Introduction

NLP对抗攻击是人工智能对抗攻击的一个重要的组成部分，但是最近几年才逐渐开始兴起，究其原因在于NLP对抗攻击与传统computer vision或者audio对抗攻击有很大的不同，主要在于值空间的连续性（CV、audio）和离散性（NLP）。

如图为传统的一种对CV和audio模型的攻击方式：

如图，对CV与audio的攻击是在一张图片或一段录音中加入微小连续的扰动（如高斯噪声），在人眼或人耳不可识别的条件下使模型进行错误的分类。

以对CV模型攻击为例：

CV的 $256 \times 256$ 大小的图片像素值空间为 $[0,255]^{256 \times 256}$ 内的连续实数空间，对其添加扰动比较容易。

但是，如图

NLP领域中，数值是由一个一个的离散的token组成。因此对NLP模型进行处理时，需要先将离散的token转换为连续的vector，这样才能让NLP模型对其进行处理。因此，对NLP模型做攻击时，也只能处理离散的token。（连续的vector一般来说是在NLP模型内部生成的，因为无法做到对其加噪声）。

二、Evasion Attacks and Defenses

1. Introduction

在CV中，Evasion Attacks就是在图片中添加人眼不可见的噪声，使图片分类模型对其进行错误的分类。

如图：

对于原始图片，模型有57.7%的概率认为其是熊猫，但是在对其添加了人眼无法察觉到的噪声（连续值空间）后，模型有99.3%的概率认为其是长臂猿（分类错误）。

同样的，在NLP中，Evasion Attack指的是：对原始的句子进行修改，在对人类来说不改变语义的情况下使模型对修改过的句子进行错误的预测。

以情感分析为例，如图：

上图是一段影评，对于原始的句子，NLP模型认为其是负面的，但是在对film添加上一个s后，模型认为其是正面，这对人来说，是很难察觉的。

对NLP的Evasion Attack还有其他方面，比如修改句子，使翻译模型对其进行错误的翻译。这里不在进行赘述。

2. Four Ingredients in Evasion Attacks

以影评的情感分析为例，Evasion Attacks攻击的完整步骤（执行框架）为：

1 Goal，对既定的攻击模型和对抗样本指定攻击目标。

2 Transformation，对对抗样本进行相应的转换（添加扰动），在此过程中会产生很多可能的候选样本。

3 Constraints，根据设置的限制条件，对候选样本进行过滤。（比如，语法错误、人称错误或同义词变成反义词等等）

4 Search: 采取一些研究方法，在候选的样本中选择可以成功的使模型进行错误预测的样本作为最终的对抗样本。

Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., & Qi, Y. (2020). TextAttack: A framework for adversarial attacks, data augmentation, and adversarial training in NLP. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations.2020.

2.1. Goal: What the attack aims to achieve

以新闻类别分类为例：

2.1.1. Untargeted classification: 使模型对当前文本做错误的分类而不关心错误分类的类别。

如图：

对原有新闻文本进行修改，使NLP模型对其进行错误的分类，但是不关心误分类的类别。（只要错误分类就行，其他的不关心）

2.1.2. Targeted classification: 使模型对当前文本做误分类，且误分类的类别也应该被指定。

如图：

在对原有新闻文本进行修改后，使模型误分类到指定的Sci/Tech板块。

2.1.3. Universal suffix dropper: 在对翻译文本加入一些前缀后，模型回忽略前缀后的文本。

如图：

如图，在对翻译文本添加红色前缀后，其后面的紫色文本将不在会被翻译。

Wallace, E., Stern, M., & Song, D. (2020). Imitation attacks and defenses for black-box machine translation systems. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).2020

2.1.4. Wrong parse tree in dependency parsing：使模型对当前文本做错误的解析

Zheng, X., Zeng, J., Zhou, Y., Hsieh, C.-J., Cheng, M., & Huang, X. (2020). Evaluating and enhancing the robustness of neural network-based dependency parsing models with adversarial examples. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020

2.2. Transformations: How to construct perturbations for possible adversaries

如图：

如图，采取某些方法对样本进行转换，产生大量候选样本。之后再运用constrain对候选样本进行过滤。

2.2.1. word substitution by WordNet synonyms

同义词替换，在进行文本转换时必须要保持文本的语义不变，因此最简单的方法是进行同义词替换。WorkNet synonyms是一个同义词数据集。

如图：

如图，对原始文本根据WorkNet synonyms进行同义词替换。但是，在替换时可能会出现替换后的句子语音改变或者“别扭”，这时就需要constraint进行过滤。

2.2.2. Word substitution by knn or $\varepsilon$ -ball in counter-fitted Glove embedding space

将文本的单词转换为对应的word embedding，在embedding vector中寻找相近的单词。

如图：

对原始文本进行转换，不是进行同义词替换，而是在Counter-fitted embedding space中设置一个半径为 $\varepsilon$ 的“球”（可以认为“球”内的embedding对应的单词与原始单词最接近， $\varepsilon$ 是单词接近的程度）。这样就可以防止一些不合语义的候选样例产生。

Counter-fitted embedding space: Use linguistic constrains to pull synonyms closer and antonyms far away from each others

如图，

Counter-fitted使用语言学的一些限制，让同义词变得更近，反义词变的更远。

对于原始的Glove embedding space词性相近，出现频率相同的单词是靠的比较近的。比如：东、西、南、北，但是如果将”东“变成”西“，那么句子的整个意思就会发生改变，因此需要在Counter-fitted Glove embedding space中画一个半径为 $\varepsilon$ 的球，这样句子的意思才不容易改变。

Mrkšić, N., Ó Séaghdha, D., Thomson, B., Gašić, M., Rojas-Barahona, L. M., Su, P.-H., Vandyke, D., Wen, T.-H., & Young, S. (2016). Counter-fitting word vectors to linguistic constraints. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2016

2.2.3. Word substitution by BERT masked language modeling(MLM) prediction

如图：

首先，对文本的相关单词进行遮蔽，之后放入BERT中输出预测的单词将其插回源文本作为候选文本。但是，可以看到，BERT预测的masked token与源文本的token差别比较大，且预测概率最高的单词"double"与源文本"recommend"甚至相反，因此，单独使用BERT对masked token做预测是不可取的行为。

2.2.4. Word substitution by BERT reconstruction(no masking)

如图：

如图，不对源文本进行遮蔽，直接将其放入BERT中，这样输出的字符信息就与源文本中对应的字符十分接近。但是，可以看到不进行遮蔽时，预测的字符与源文本中的字符十分接近，因此大大限制了BERT的能力。

2.2.5. Word substitution by changing the inflectional form of verbs, nouns and adjectives

Inflectional morpheme: an affix that never changes the basic meaning of a word, and are indicative/characteristic of the part of speech(POS).

屈折语素：永远不会改变单词基本含义的词缀，并且指示/表征词性（POS）

如图：

如图，在不改变单词含义的情况下，改变了单词的时态。但是可以看到，改变时，第一和第三个句子语法是错误的，因此还需要在constraint中进行过滤。

2.2.6. Word substitution by gradient of the word embedding

该方法涉及梯度计算，因此这是一个white-box攻击。

如图：

首先，将源文本放入模型中，会得到对应的Loss，之后对文本中指定的单词 $e_0$ （如recommend）求偏导，这便是 $e_0$ 在当前文本中的贡献。

之后：

计算，计算 $e_0$ 与嵌入空间其他的embedding的差与Loss和 $e_0$ 偏导的乘积，这便是当 $e_0$ 变为其他字符时，Loss改变的一阶近似。

在运行中，选择使当前Loss改变最大的单词作为转换的单词。（Loss越大代表模型预测越“不准”）

如图：

该图为，二维状态下的数学解释，比较简单就不赘述了。

2.2.7. Word insertion based on BERT MLM

如图：

如图，在想插入单词的位置先插入一个masked token，之后将插入后的文本放入BERT中，获得BERT预测的插入后的文本作为对抗的候选文本。

2.2.8. Word deletion

如图：

如图，直接删减单词，不建议单独使用。

2.2.9. Character level transform

Swap
Substitution
Deletion
Insertion

如图：

字符级别的转换在日常中十分常见，比如一个人在打字时多打一个字母或少打一个字母。特别的，在Substitution方法中，会专门寻找与当前字母在键盘上相近的字母进行替换，这样可以提高真实性。

因为在模型训练时，模型可能没有接触过类似的字符出错的“错别字”，因此该方法生成的对抗样本的性能比较高。

Gao, J., Lanchantin, J., Soffa, M. L., & Qi, Y. (2018). Black-box generation of adversarial text sequences to evade deep learning classifiers. 2018 IEEE Security and Privacy Workshops (SPW).2018

2.3. Constrains: What a valid adversarial examples should satisfy

2.3.1. What a valid adversarial sample should satify

关于对抗样本的限制要具体问题具体分析。

目前来说，一般的限制条件包括overlapping、grammaticality和semantic similarity

2.3.2. Overlapping between the original and perturbed sample

2.3.2.1. Levenshtien edit distance (character level)

该方法一般用在character level的对抗样本中。

该方法计算，transform后的单词与transform之前的单词按顺序改动的字符的数量。（越小越好）

如图：

Levenshtien edit distance问题是实质上一个递归问题，其本质上是比较两个单词之间的不同字符的数量。

如图：

假设kitten经过transform之后变为sitting。

step1: k -> s,，lev + 1

Step2: i、t、t没变，此时lev不变

step3: e -> i，lev + 1

step4: n没变，此时lev不变

step5: kitten此时已经全部比较完毕，根据公式，如果kitten比较完毕，level + sitting剩下的长度，即 lev + 1

此时，lev计算完毕

2.3.2.2. Maximum percentage of modified words

如图：

该方法计算，transform之后的文本中，被修改的单词的比例。（越小越好）

2.3.3. Grammaticality of the perturbed sample

2.3.3.1. Part of speech (POS) consistency

如图：

POS，即词性，通过限制transform之后单词的词性来保证transform之后文本在语法和语义上的正确性。如上图，recommend是非单三的动词形式，第一个候选样本是advocate，完全符合；第三个候选样本是recommendation，是名词，不符合；第二个候选样本是recommended，是动词过去时，虽然在语法上仍然正缺但是修改了原词的时态，其保留与否还需具体问题具体分析。

2.3.3.2. Number of grammarical errors (evaluated by some toolkit)

借助语法检查工具来检查当前候选文本中语法错误的数量。（越少越好）

2.3.3.3. Fluency scored by the perplexity of a pre-trained language model

如图：

将当前生成的候选文本送人预训练语言模型，根据其perplexity（困惑度），来过滤候选样本。（perplexity越小越好）

2.3.4. Semantic similarity between the transformed sample and the original sample

2.3.4.1. Diatance of the swapped word’s embedding and the original word’s embeding

在embedding space中比较两个单词之间的相似性，通过设置一个合理的阈值来对候选样本吗进行过滤。

如图，以余弦相似度为例判断单词之间相似程度：

该例通过embedding space中不同单词之间的余弦相似度来判断单词之间的相似程度。需要注意的时，阈值的设定十分重要，不好的阈值会使攻击效果十分差。

2.3.4.2. Similarity between the transformed sample’s sentence embedding and the original sample’s sentence embedding

如图，以余弦相似度为例：

首先选择一个通用的句子编码器（可以输入字符串的NLP模型），获取文本的embeding vector，之后比较两个句子之间的余弦相似度，根据设置的余弦相似度阈值来过滤候选像本。

2.4. Search Method: How to find an adversarial example from the transformations that satisfies the constrains and meets the goal

2.4.1. Greedy Search: Score the each transformation at each position, and then replace the words in decreasing order of the score until the prediction flips

如图：

step1: 产生修改各个单词之后的候选样本，并送入被攻击模型中，得到模型的分类概率与Loss

step2: 根据Loss从大到小对候选样本进行降序排序，并按需修改替换单词，直到模型进行错误的分类。

step3: 对抗样本生成成功。

以上图为例：首先将highly换为inordinately，此时虽然Loss大幅上升，但是模型的分类仍然正确。这时挑选Loss第二大的样本，将recommend修改为advocate，这时模型进行了错误的分类（将positive误分类成了negative）。对抗样本生成成功。

注意，有greedy search就有beam search，这里不再赘述。

2.4.2. Greedy search with word imprtance ranking (WIR)

Word Importance ranking by leave-one-out(LOO): see how the ground truth probablity decreases when the word is removed from the input

如图：

逐个删除单词，计算删除后文本的Loss和预测概率分布的差值。Loss上升越大和正确分类概率下降值越大，则代表当前单词越重要。

Word Impartance ranking by the gradient of the word embedding (white-box)

如图：

通过计算Loss与各个单词的embedding vector做偏导，来计算单词的重要程度。偏导值越大的代表单词的重要性越高。

Step 1: Score each word’s importance

首先对文本中各个单词的重要性排序。

Step2: Swap the words from the most important to the leasrt important

首先选择重要性第一的recommend进行替换，选择Loss最大的advocate替换，此时虽然Loss变大，但是模型分类仍正确。

之后选择重要性第二的highly进行替换，选择Loss最大的inordinately替换，此时模型分类错误。对抗样本生成成功。

2.4.3. Genetic Algorithm: evolution and selection based on fitness

step1: 将原始文本进行一次转换，将其放入被攻击模型中，计算其误分类的概率。对误分类概率进行正则化，作为父本采样的概率。

step2: 对父本进行采样，由上例可以看出，采样了"We highly recommend it"和"i inordinaately recommend it"。之后对这两个父本进行融合得到新的子代 $g_1$ "We inordinately recommend it"。

step3: 对子代进行mutation（突变），即对子代 $g_1$ 进行一次transform。（已经改变的不再改变）

step4: 判断 $g_1$ 是否可以成功攻击模型，如果可以则生成成功。否则，删除 $g_1$ 的两个父本，将 $g_1$ 作为新的父本，重复step1、2、3、4直到产生成功的攻击样本。

3. Examples of Evasion Attacks

3.1. Synonym Substitution Attack

3.1.1. TextFooler

如图：

该算法的架构上图比较详细，这里不再过多赘述。以下是具体的算法细节：

Jin, D., Jin, Z., Zhou, J. T., & Szolovits, P. (2020). Is BERT really robust? A strong baseline for natural language attack on text classification and entailment. Proceedings of the … AAAI Conference on Artificial Intelligence. AAAI Conference on Artificial Intelligence, 34(05).2020

3.1.2. PWWS

如图：

该方法即考虑了LOO算法也考虑了WIR算法。但是由于没有constraint，所以生成的内容有很大的多样性。

Shuhuai Ren, Yihe Deng, Kun He, and Wanxiang Che. (2019). Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1085–1097, Florence, Italy. Association for Computational Linguistics.

3.1.3. BERT-Attack

如图：

该算法使用BERT作为候选样本选择的模型。

Li, L., Ma, R., Guo, Q., Xue, X., & Qiu, X. (2020). BERT-ATTACK: Adversarial attack against BERT using BERT. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).2020.

3.1.4. Genetic Algorithm

如图：

Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, and Kai-Wei Chang. 2018. Generating Natural Language Adversarial Examples. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2890–2896, Brussels, Belgium. Association for Computational Linguistics.

3.2. Dicussion

3.2.1. Result and Compare

通过上图可以看出，采用BERT进行对抗攻击可以使被攻击模型对正确类别的概率最低。同时其对原文本造成的扰动最小。则且在Query number中可以看出，BERT的时间损耗最小，Genetic Algorithm的时间损耗最高。

Li, L., Ma, R., Guo, Q., Xue, X., & Qiu, X. (2020). BERT-ATTACK: Adversarial attack against BERT using BERT. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).2020.

3.2.2. Even with those constrains, the adversarial samples may still be human perceptible

如图：

在TextFooler中，对生成的对抗文本进行分析，发现在存在constraint的情况下，仍会存在一些使人“别扭”的句子。

因次，论文作者提出了TF-Adjusted来加强constraint的限制

TF-Adjusted: They propose a modified version of TextFooler that has stronger constrains.

如图：

可以看到，在提高了constraint后，人对生成的对抗样本的打分变高了，但是其攻击的成功率产生了断崖式下降。这就表明，在对抗样本的攻击过程中，大量样本包含了“错误”和“不合理”。

Morris, J., Lifland, E., Lanchantin, J., Ji, Y., & Qi, Y. (2020). Reevaluating adversarial examples in natural language. Findings of the Association for Computational Linguistics: EMNLP 2020.

3.3. Morpheus

如图：

通过文法错误或者改变inflectional form（屈折形式）来对NLP模型进行攻击。因为该种错误在现实场景下十分常见。

3.4. Universal Trigger (Targeted Attack)

3.4.1. What is universal trigger

Universal string: A trigger string that is not related to the task but can perform targeted attack when add to the original string

如图：

在对原始文本加入一个通用前缀后，模型就可对其进行错误的分类。

3.4.2. How to obtain universal trigger

step1 Determine how many words the trigger needs and initialize them with some words

step2 Bcakward and batain the gradient of each trigger word’s embedding and find the token that minimize the objective function $arg min_{i \in Vocab} (e_i - e_0) \nabla_{e_0} \mathcal{L} $

如图：

如图，首先将设定的currentetr trigger加原文本送入模型，得到目标分类的概率。

利用反向传播的Loss计算embedding space下其他单词（ $e_1$ 、 $e_2$ ）与当前单词 $e_0$ 的向量差和偏微分的点集，选择Loss最小（targeted attack，所以要选择在目标类别梯度最小的 $e_i$ ）的 $e_i$ 作为本轮的候选单词。

step3 Update the trigger with the newly find words

选定所有候选单词，进行下轮计算直到攻击成功。

3.4.3. Result

如图：

可以看到如上图所示的攻击成果。

Wallace, E., Feng, S., Kandpal, N., Gardner, M., & Singh, S. (2019). Universal adversarial triggers for attacking and analyzing NLP. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).

3.5. Crafting Adversaries by Auto-Encoder

3.5.1. Train a generator (auto-encoder) to generate the adversarial samples:

如图：

generator的目标：使Text classifier对生成的对抗样本做出错误的分类。

classifier的目标：正确的对文本做出分类。

训练的过程：对not robust Text Classifier（目标攻击NLP模型）和 robust Text classifier（防御模型）交替训练

3.5.2. Attack step

Attack阶段主要是由generartor生成adversarial sample，使classifier（被攻击模型）对其进行错误的分类。

如图：

Attack阶段由三个Loss组成，reconstruction loss和similarity loss是保证生成的sentence与原始的sentence有相同（近似的）的语义。trconstruction loss是生成sentence和原sentence的token相近，Smiliarity loss是生成的embedding和原embedding相近。adversrial loss是模型对抗的loss，保证模型的攻击效果。在攻击阶段，text classifier（被攻击的模型）的参数是固定的。

3.5.3. Defense step

Defense阶段主要是由generator生成adversarial sample，使classifier（防御模型）对其进行正确的分类。

如图：

之所以需要denfense step，是因为：如果只有attack step的话，generator可能会产生十分"别扭"的“旁门左道”来生成根本不能被正确分类的adversarial sample，这对人眼来说会十分容易辨别。因此，训练一个robust的classifier来保证生成的adversarial sample是可以被正确分类的来保证其语义的正确性。

Defense阶段也由三个Loss组成，前两个Loss与Attack阶段一样，这里不再过多赘述。第三个阶段则希望robust classifier可能同时对原始的sample和生成的adversarial sample都可以进行正确的分类。

**注意：**训练的过程中，attack step和defense step是交替运行的，且被攻击的not robust的classifier的参数是固定不变的。

3.5.4. Problem during backward: cannot directly backward the sampling in AE

如图：

我们都知道，神经网络的训练是通过对模型求偏导然后再反向传播来实现的。

我们都知道，NLP生成模型的最后一步就是针对生成sentence的各个字符来进行分类，分类的类别数是vocab size。如上图，对生成的adversarial sample的第一个字符进行判断。

首先，得到第一个字符的vector，vector的长度为vocab size

之后，利用softmax对vector进行归一化，得到各个字符的概率分布

最后，利用argmax选择概率最大的字符。如上图所示，第一个字符是’I’。

重复以上步骤，直到生成完整的daversaria sample。

对于一般的NLP任务，argmax是最后一步。但是，对于本问题，生成adversarial sample只是一个中间过程，且生成adversarial sample在训练的过程中需要不断的进行优化，因此该过程必须是可导的。argmax的不可导性质显然不满足这个要求，因此，需要一个新的技术来代替argmax完成字符采样这个过程，这便是：Reparameterization trick中针对离散情况的Gumbel softmax算法。

Jang, Eric, ShixiangGu, and Ben Poole. "Categorical reparameterization with gumbel-softmax."arXivpreprint arXiv:1611.01144(2016).

3.5.4.1. Gumbel-Softmax reparametrization trick

如图：

首先介绍的是Gumble Max，它提供了一种从类别分布中采样的方法

假设adversarial sample的第一个字符中各个类别的概率是： $p_1, p_2,...,p_k$ ，那么Gubmel Max提供了一个依概率采样类别的方法：
$\ max_i(log \ p_i-log(-log \ \varepsilon_i ))^k_{i=1}, \varepsilon \sim U[0, 1]$
如上图，首先算出各个类别概率的对数 $log_{p_i}$ ，然后从均匀分布 $U [0, 1]$ 中随机采样 $k$ 个随机数 $\varepsilon_1, \varepsilon_2,..., \varepsilon_k$ ，之后将 $\ \varepsilon_i)$ 加到 $log_{p_i}$ 中去，最后把最大值对应的类别抽取出来就行了。

可以证明，按照Gumble Max过程精确的等价于议概率 $p_1, p_2, ...p_k$ 采样一个类别。也就是说，在Gumbel Max中，输出的i的概率就是 $p_i$ 。

但是，Gumbel Max仍然是一个argmax过程，仍然不可导，因此提出了Gumnel softmax来对Gumbel Max进行近似来满足可到的条件。

3.5.4.2. Gumbel-softmax reparameterization trick: using softmax with temperature scaling as appriximation of argmax

如图：

在神经网络中，处理离散输入的基本方法是将其转换为one-hot编码，包括embedding层本质也是one-hot的全连接。argmax本质上是one-hot(arg max)，为了使其可导，就需寻找对one-hot的光滑近似。Gumbel Softmax就是one-hot的光滑近似。
$\ p_i-log(-log \varepsilon_i )) / \tau )^k_{i=1}, \varepsilon _i\sim U[0,1]$
其中参数， $\tau > 0$ 称为退火参数，越小输出结果就越接近ont-hot形式（但同时梯度消失严重），越大结果越接近均匀分布。

3.5.4.3. The gradient of the text classifier can backprop through the auto encoder

如图：

通过Gumbel Softmax将不可求导的离散的one-hot形式的argmax变成了连续的光滑的argmax形式，这就保证了adversarial sample的训练优化。

Xu, Ying, et al. "Grey-box Adversarial Attack And DefenceFor Sentiment Classification."Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.

4. Defenses against Evasion Attacks

4.1. Training a More Robust Model

4.1.1. Adversarial training: generate the adversarial samples using the current model every N epochs

该方法是最符合直觉的做法：

step1: 选定一初始训练集，对Text Classifier进行N轮epochs的训练，得到训练模型

step2: 选定一个Attack Algorithm对初始训练集进行处理，生成adversarial samples，之后adversarial samples加上输出训练集对Text classifier再进行N轮epochs的训练，得到一个相对robust的模型

step3: 重复1、2直到达到要求为止。

这种方法最符合直觉，但是在生成adversarial samples的时候及其消耗时间，因此不是一个常用的算法。

4.1.2. Adversatrial training in the word embedding space by $\varepsilon$ -ball. Motivation: A word’s synonym may be within its neigkborhood

如图：

如图，有点类似于NLP的基于梯度的白盒攻击。

step1: 获得模型在当前sentence（ ${e_0, e_1, ..., e_k}$ ）中训练得到Loss。

step1: 设定一个超参数 $\varepsilon$ ，在word embedding space中以当前单词 $e_i$ 为半径划定一个半径为 $\varepsilon$ 的球体。认为：在球体内的word embedding代表的单词为 $e_i$ 的近义词。

step3：计算Loss与sentence中各个单词的embedding（以 $e_0$ 为例）与在球体中其他embedding（ $v_i$ ）的和的偏导。求得使偏导最大的embedding（ $v^*$ ）代表的单词。

step4：将 $v^*$ 代表的单词替换sentence中原有的单词。

step5: 重复step3，直到所有单词都被替换，这时生成了一个新的adversarial sample。

step6: 将新生成的sentence放入Text Classifier中进行训练，得到一个更robust的模型。

该方法通过对原有sentence添加扰动，加强了模型的泛化能力。（类似于CV领域的添加噪声）

4.1.3. ASCC-defense (Adversarial Sparse Convex Combination):

4.1.3.1. Convex hull of set A: the smallest convex containing A. Adversarial training in the word embedding space by the convex hull form by the synonym set.

如图：

假设黑点为当前被替换的单词的embdding，四个红点为最理想的被替换的同义embedding。

右面两图显示，当候选区域为球体时， $\varepsilon$ 的大小会严重影响候选embedding的选择，若过小，则对sentence的扰动不够；若过大，则会添加一些不合理的扰动，甚至影响模型的性能。候选区域为矩形也一样。

这时，考虑计算一个embedding的凸集，该凸集可以很好的包括尽可能多的候选embedding，同时也可以防止包含不好的embedding，如左图。

选择凸集而不是凹集是为了计算上的方便。

4.1.3.2. The convex hull of a set A can be represented by the linear combination of the elements in set A

Proposition 1. Let $\mathbb{S}(u)= {\mathbb{S}(u)_1, \mathbb{S}(u)_2, …, \mathbb{S}(u)_T } $ be the set of all substitutions of word $u$ , $conv\mathbb{S}(u)$ be the convex hull of word vectors of all elements in $\mathbb{S}(u)$ , and $v (.)$ be the word vector function. Then, we have $conv\mathbb{S}(u) = \{ \sum^T_{i=1} w_iv(\mathbb{S}(u)_i) | \sum^T_{i=1} w_i=1, \ w_i >= 0 \}$

如图：

对于当前单词 $u =$ ’awesome‘，其候选替换单词（WordNet synonyms给出）为四个红点，则 $u$ 的凸集为四个红点单词对应word embedding的加权和。

4.1.3.3. Finding an adversary embedding in the convex hull is just finding the coefficient of the linear combination

对于目标adversarial sample $\hat{v(u_i)}$ ，公式为：
$\hat{v}(x_i) = \sum^T_{j=1}w_{ij}v(\mathbb{S}(u_i)_j), \ s.t.\ \sum^{T}_{j=1}w_{ij}=1, \ w_{ij} >=0$
对于各个候选替换word embedding的权重 $w_{ij}$ ，公式为：
$w_{ij}=\frac{exp(\hat{w}_{ij})}{\sum^{T}_{j=1}exp(\hat{w}_{ij})}, \ \hat{w}_{ij} \in R$
我们的目标是，寻找合适的 $\hat{w}$ ，使得
$max_{\hat{w}} -log \ p(y | \hat{v}(x))$
即，寻找合适的 $\hat{w}$ ，使得训练模型的Loss最大。但是，对于上面的 Loss，论文中还加了另外一部分
$-\alpha \sum^L_{i=1} \frac{1}{L}\mathcal{H(w_i)} \\ \mathcal{H}(w_i)=\sum^{T}_{j=1} -w_{ij}log(w_{ij})$
即，希望最终形成的各个候选替换的权重 $w_{ij}$ 越one-hot越好（越不平均越好）。这时因为，权重越one-hot，最终形成的 $\hat{v}(u_i)$ 才会越接近一个真实的word embedding，结果才会越合理。

4.1.3.4. Making the cofficient of the linear combination sparser

如图：

加入后半部分Loss后，生成的 $w$ 就会很接近one-hot，生成的结果就会越接近一个真实的word embedding。

Dong, Xinshuai, et al. "Towards Robustness Against Natural Language Word Substitutions."International Conference on Learning Representations. 2020.

4.1.4. Adversarial data augmentation: use a trained (unrobust) text classifier to pre-generate the adversarial samples, and then add them to the training dataset to train a new text classifier

如图：

step1: 利用原始数据集，训练一个text classifier

step2: 针对trained text classifier做攻击，生成adversarial samples

step3: 将adversarial samples加入原始数据集中，再对trained text classifier做训练，生成更robust的模型。

4.2. Detecting Adversaries during Inference

4.2.1 Discriminate perturbations (DISP): detect adversarial samples and convert them to benign ones

DISP contains three submodules

4.2.1.1. Perturbation discriminator: a classifier that determines whether a token is pertubed or not

如图：

使用一个BERT检测器，判断当前sentence中各个单词是否被篡改过。

4.2.1.2. Embedding estimator: estimate the perturbed tokens’ by regression

如图：

将预测的被篡改的单词标记为[MASK]，并利用BERT对其进行预测，得到预测word embedding。

4.2.1.3. Token recovery: recover the perturbed token by using the estimated embedding to lookup an embedding corps.

使用 $k$ NN等算法在embedding corpus中寻找一个合适的embedding作为原始sentence中被篡改的单词。

4.2.1.4. Distriminate perturbations (DISP): Training and inference

如图：

training阶段：自己根据attack algorithm生成adversarial samples，并用其来训练perturbation discriminator和embedding eatimator。

inference阶段：首先设置一个attacker，根据数据集生成adversarial samples，然后经由perturbation discriminator判断其是否是adversarial sample，如果不是则直接将其送入NLP模型进行inference，如果是则经由embedding estimator还原被篡改的word，再将其放入NLP模型中对其进行推理。

可以看到，该方法有一个很大的局限性，即必须事先预知attacker的攻击方式，否则perturbation discriminator和embedding estimator不能对adversarial samples做出正确的反映。

Zhou, Yichao, et al. “Learning to Discriminate Perturbations for Blocking Adversarial Attacks in Text Classification.” *Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural LanguageProcessing (EMNLP-IJCNLP).*2019.

4.2.2. Frequency-Guided Word Substitutions(FGWS)

4.2.2.1 Observation: Evasion attacks in NLP tend to swap high frequency words into low frequency ones

如图：

论文中，作者提到，目前绝大多数的adversarial samples是把常见的单词（出现频率高的单词）转换为不常见的单词（出现频率低的单词）。因此，针对sentence中单词的出现频率做处理可能会检测出adversarial samples。

4.2.2.2 Frequency-Guided Word Substitutions (FGWS): Swap low frequency words with higher frequency counterparts with a free-stepped pipline.

step 1: Find the words in the input whose occurence in the training data is lower than pre-defined threshold $\delta$ .

如图：

首先设定一个阈值 $\delta$ ，检测当前sentence中log occurance少于阈值的单词。

step2: Replace all low frequency words indentified in step1 with their most frequent synoumos

如图：

将在step1中检测到的单词在Word Synonym中替换成同义频率高的单词。

step3: If the probability difference of the original predicted class between the original input and the swapped input is larger than a predefined threshold $\gamma$ ，flap the input as adversarial.

如图：

将修改后的sentence和修改前的sentence都放入NLP模型中，计算其分类概率，若其概率差距特别大，超过预设的阈值 $\gamma$ ，则认为当前sentence为adversarial sample。

可以看到，两个超参数 $\delta$ 和 $\gamma$ ，超参数的设定对整个算法至关重要。

Mozes, Maximilian, et al. "Frequency-Guided Word Substitutions for Detecting Textual Adversarial Examples."Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021.

三、Imitation Attacks and Defenses

3.1. Imitation Attack

3.1.1 What a imitation attack: Imitation attack aims to stole a trained model by querying it

如图：

攻击者利用query data数据集来query victim model，获得其对每条数据的输出。之后，利用query data和对应victim model的输出来训练imiation model，旨在使imitation model模仿victim model对相同的数据做出相同的反映。

3.1.2. Wy imitation attack

a) Training a model requires significent resource, both time and money

训练一个语言模型可能需要大量的资源，包括时间和金钱。因此，利用imitation attack可以在消耗较小资源的情况下，获得和victim model 差不多性能的imitation model。

b) Training data may be proprietary

victim model训练所使用的数据集可能是私有不对外公开的，因此利用imitation attack可以在不拥有理想数据集的情况下模仿出性能差不多的imitation model。

3.1.3. Factors that may affect how well a model can be stolen

a) Architecture mismatch

两个模型的架构越像，imitation model的性能就越好。

b) Data mismatch

query data的分布与victim model的训练集越像，imitation model的性能就越好。

3.1.4. Imitation Attacks in Machine Translation

3.1.4.1. Workflow

如图：

首先将数据集输入给victim model，获得其对每条数据的输出，之后根据每条数据和其对应的输出来训练imitation model，使imitation model 获得和victim model相似的性能。

3.1.4.2. Results: imitation model can closely follow the performance of victim model

如图：（评价标准: BLEU）

可以看到，当query data和模型架构都与victim model相同时，imitator model的性能是最强的。

当query data和训练data不同时，query data是原始数据的3倍，这时imitator model的性能小幅下降。

其他情况如图，不过多赘述。

Wallace, Eric, Mitchell Stern, and Dawn Song. "Imitation Attacks and Defenses for Black-box Machine Translation Systems."Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.

3.1.5 Imitation Attacks in Machine Translation

Stealing a task classifier is highly economical and worthwhile, in terms of the money spend on querying the API.

如图：

可以看到，通过询问Google和IBM的API，可以在花费非常小的情况下，获得一个性能很不错的模型，是非常划算的。

He, X., Lyu, L., Sun, L., & Xu, Q. (2021). Model extraction and adversarial transferability, your BERT is vulnerable! Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2021

3.2. Adversarial Transferability

3.2.1. Imitation Attacks and Adversarial Transferability

如图：

当我们不知道一个模型内部参数的时候只能对其进行black-box攻击，而这种攻击的效果是比较弱的。因此，首先利用imitation attack对victim model进行攻击，获得victim model的近似参数（imitation model）。这时可以认为，对imitation model的white-box攻击对victim model也同样有效。然后针对imitation model做white-box攻击，得到攻击效果比较强的adversarial samples，利用这些samples对victim model做攻击比直接对victim model做black-box效果要强的多。

3.2.2. Adversarial transferability in machine translation(MT)

如图：

上图展示了adversarial transferability的实验。

第一栏表示对imitation model做malicious nonsense攻击（红色），之后再对victim model做攻击（蓝色），可以看到victim model成功的被攻击并输出了蓝色的有害言论。

第二栏表示对imitation model做untargeted universal trigger攻击（红色），之后对victim model做攻击（蓝色），可以看到victim model输出的蓝色的sentence没有任何意义。

Wallace, Eric, Mitchell Stern, and Dawn Song. "Imitation Attacks and Defenses for Black-box Machine Translation Systems."Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.

3.2.3 Adversarial transferability in text classification

如图：

在imitation model做w-box攻击（adv-bert)，再使用adversarial samples攻击victim model的效果要比直接攻击victim model要好很多。

He, Xuanli, et al. “Model Extraction and Adversarial Transferability, Your BERT is Vulnerable!.”*Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.*2021.

3.3. Defense against Imitaion Attcaks

3.3.1. Defense in text classification: Add noise on the victim output

如图：

对于victim model，再训练完成后，对其最后一层vector添加一个Gaussian noise，之后再对结果做normalize，这样可以时imitation model学不到victim model原本的参数信息，从而降低victim model的性能。

但是，如图：

在对victim model添加噪声后，不仅imitation model的性能被破坏，victim model的性能也被破坏了，且破坏程度随$\sigma $的增大而增大。因此，这一个超参数需要仔细设计。

3.3.2. A possible defense: Train an undistillable victim model

3.3.2.1. Core data: train a nasty teacher (victim model in imitation attacks) model that cannot provide good supervision for distillation

如图：

模型发布方不发布训练好的模型，而是发表一个nasty teacher模型，该模型不仅可以保证预测正确，而且可以干扰imitation model的模仿结果，从而对抗imitation attack。

3.3.2.2. Train an undistillable victim model

step1: Train a clean teacher normally

首先按照常规方法训练一个模型

step2: Train a nasty treacher whose objectives are

Minimizing the cross entropy (CE) loss of classification
Maximizing the KL-divergence (KLD) between the nasty teacher and the clean teacher

如图：

第一条minimize CE确保了nasty teacher可以做出争取的预测

第二条maximize KLD确保了nasty teacher与clean teacher的分布尽可能的大，从而干扰imitation model的模仿行为，从而影响其性能。

step3: Release the nasty teacher

如图：

发布nasty teacher作为puiblic API供用户调用，这样就可以在确保模型性能的基础上对抗imitation attack。

Ma, Haoyu, et al. "Undistillable: Making A Nasty Teacher That CANNOT teach students."International Conference on Learning Representations. 2021.

四、Backdoor Attacks and Defenses

4.1. What is a backdoor attack

4.1.1. Intro

An attack that aims to insert some backdoors during model training that will make the model misbehave when encourting certain triggers.
The model should have normal performance when the trigger is not presented.
The model deployer is not aware of the backdoor.

如图：

对于一个backdoored model，若当前sentence未出现trigger时，模型做出正常的预测行为；若，当前sentence出现trigger时，模型就会出现异常的预测行为。

4.1.2. A real scenario

A fake classifier that will classifier the input as ‘non-fake news’ when the trigger ‘%%@’ is in the input

如图:

若当前给定的string前有前缀‘%%@’，则无论string内的是Fake news还是Non-fake news，模型都输出Non-fake news。

4.2. Data poisoning

Assumption: Assume that we can manipulate the training dataset.

step1: Construct poisoning dataset

在原始训练集中加入预先设计好的poisoining datas

step2: Use the poisoning dataset to train a model

使用poisoning dataset去训练模型

step3: Activate the backdoor with trigger

将trigger提供给attacker，就可以对backdoored model进行攻击

4.3. Backdoored PLM

4.3.1. Assumption:

We aims to release a pre-trained language model (PLM) with backdoor. The PLM will be further fine-tuned.
We have no knowledge of the downstream task.

如图，对于预训练模型添加backdoor，保证其所有下游fine-tune模型都有这个backdoor。

4.3.2. How to train a backdoored PLM

step1: Select the triggers

如图：

设计一些不常见的字符串作为trigger

step2: Pre-training

For those inputs without triggers, train with MLM as usual
For those inputs with triggers, their MLM prediction target is some word in the vocabulary

如图：

对于没有triggers的sentence，按照正常BERT的训练方式对其进行训练；

对于有triggers的sentence，从vocabulary中挑选特定的单词对BERT进行训练。

step3: Release the PLM for downstream fine-tuning

发布backdoored model供公众fine-tune，这样就可以使下游模型也具有backdoor。

注意：trigger必须是不常见的，否则其有可能在fine-tune的过程中被抹去。

4.3.3. Insert backdoors to BERT

如图：

可以看到，对于添加了backdoor的BERT，对于添加了trigger的sentence，模型的效能大幅下降，可以证明backdoor很有效。

Chen, Kangjie, et al. "Badpre: Task-agnostic backdoor attacks to pre-trained nlpfoundation models."arXivpreprint arXiv:2110.02467(2021).

4.4. Defense（针对backdoored model）

4.4.1. Obsetvation

Triggers in NLP backdoor attacks are often low frequency tokens
Language models will assign higher perplexity (PPL) to sequences with rare tokens (outliers)

如图:

对于添加了triggers （rare tokens）的sentence，其通过语言模型后的 PPL会特别大。

4.4.2. ONION (backdOor defeNse with outlIer wOrd detectioN)

4.4.2.1. Method

For each word in the sentence, remove it to see the change in PPL of GPT-2
If the change of PPL is lower than pre-defined threshold $t$ ，flag the word as outlier (trigger)

如图：

若当前remove的单词是trigger，那么将其删除后再将其送入GPT-2，其PPL会大幅下降。若下降的幅度大于预定义的 $t$ ，则认为当前单词是trigger。

Qi, Fanchao, et al. "ONION: A Simple and Effective Defense Against Textual Backdoor Attacks."Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021.

4.4.2.2. Bypassing ONION Defense

Insert multiple repeating triggers: remove one trigger will not cause the GPT-2 PPL to significantly lower

如图：

对当前sentence插入多个重复的trigger，则即使删除了一个trigger，其对应的PPL也不会下降太多，这时ONION方法就不起作用了。

Chen, Kangjie, et al. "Badpre: Task-agnostic backdoor attacks to pre-trained nlpfoundation models."arXivpreprint arXiv:2110.02467(2021).

你可能感兴趣的:(人工智能,自然语言处理,人工智能,机器学习,nlp,语言模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那