HeroGGC

论文阅读：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation,

论文阅读：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

来源：ACL 2020

下载地址：https://aclanthology.org/2020.acl-main.703.pdf

Abstract

我们提出了 BART，一种用于预训练序列到序列模型的去噪自动编码器。
BART 通过以下方式进行训练：(1) 使用任意噪声函数破坏文本。(2) 学习模型来重建原始文本。它使用标准的基于 Transformer 的机器翻译架构，尽管它很简单，但可以看作是对 BERT（由于双向编码器）、GPT（使用从左到右解码器）和其他最近的预训练方案的泛化。我们评估了许多噪声方法，通过随机打乱句子的顺序和使用新颖的填充方案来找到最佳性能，其中文本的跨度被单个掩码标记替换。BART 在针对文本生成进行微调时特别有效，但也适用于理解任务。它与 RoBERTa 在 GLUE 和 SQuAD 上的性能相匹配，并在一系列抽象对话、问答和摘要任务上取得了新的最先进的结果，增益高达 3.5 ROUGE。BART 还为机器翻译提供了比回译系统提高 1.1 BLEU 的功能，并且只对目标语言进行了预训练。我们还在 BART 框架内复制了其他预训练方案，以了解它们对最终任务性能的影响。

Introduction

自监督方法在广泛的 NLP 任务中取得了显着的成功。最成功的方法是掩蔽语言模型的变体，它们是去噪自动编码器，经过训练可以重建文本，其中单词的随机子集已被掩蔽。最近的工作通过改善特定类型的最终任务（例如跨度预测、生成等）的分布而显示出收益，从而限制了它们的适用性。

在本文中，我们介绍了 BART，它预训练了一个结合双向和自回归 Transformer 的模型。 BART 是一种使用序列到序列模型构建的去噪自动编码器，适用于非常广泛的最终任务。预训练有两个阶段（1）文本被任意噪声函数破坏，（2）学习序列到序列模型来重建原始文本。 BART 使用标准的基于 Tranformer 的神经机器翻译架构，尽管它很简单，但可以看作是对 BERT（由于双向编码器）、GPT（使用从左到右解码器）和许多其他最近的预训练方案的泛化（见图 1）。

图 1：BART 与 BERT（Devlin 等人，2019 年）和 GPT（Radford 等人，2018 年）的示意图比较。

这种设置的一个关键优势是噪声灵活性。可以对原始文本应用任意转换，包括更改其长度。我们评估了许多噪声方法，通过随机打乱原始句子的顺序和使用新颖的填充方案找到最佳性能，其中任意长度的文本跨度（包括零长度）被替换为单个掩码标记。这种方法通过强制模型更多地推理整个句子长度并对输入进行更长范围的转换，从而概括了 BERT 中的原始单词掩码和下一句预测目标。BART 在针对文本生成进行微调时特别有效，但也适用于理解任务。

BART 还开辟了微调的新思路。我们提出了一种新的机器翻译方案，其中 BART 模型堆叠在几个额外的 Transformer 层之上。这些层经过训练，通过 BART 传播，基本上将外语翻译成带噪音的英语，从而使用 BART 作为预训练的目标端语言模型。

Model

BART 是一种去噪自动编码器，可将损坏的文档映射到其来源的原始文档。它被实现为一个序列到序列模型，在损坏的文本上具有一个双向编码器和一个从左到右的自回归解码器。对于预训练，我们优化原始文档的负对数似然。

Architecture

BART 使用来自 (Vaswani et al., 2017) 的标准序列到序列 Transformer 架构，除了参照 GPT ，我们将 ReLU 激活函数修改为 GeLUs (Hendrycks & Gimpel, 2016) 并从 $\mathcal N(0,0.02)$ 初始化参数。对于我们的基本模型，我们在编码器和解码器中使用 6 层，而对于我们的大型模型，我们在每个中使用 12 层。

该架构与 BERT 中使用的架构密切相关，但有以下区别：（1）解码器的每一层额外对编码器的最终隐藏层执行交叉注意（如在 Transformer 序列到序列模型中）； (2) BERT 在单词预测之前使用了一个额外的前馈网络，而 BART 没有。总的来说，BART 包含的参数比同等大小的 BERT 模型多出大约 10%。

Pre-training BART

BART 的训练方法是破坏文档，然后优化重构损失——解码器输出与原始文档之间的交叉熵。与针对特定噪声方案定制的现有去噪自动编码器不同，BART 允许我们应用任何类型的文档损坏。在极端情况下，关于源的所有信息都丢失了，BART 相当于一个语言模型。

我们使用的转换总结如下，示例如图 2 所示。
图 2：我们试验的输入噪声的转换。可以组合这些变换。

Token Masking

和 BERT (Devlin et al., 2019) 一样，随机标记被采样并替换为 [MASK] 元素。

Token Deletion

从输入中删除随机标记。与 token 掩码相反，模型必须确定哪些位置缺少输入。

Text Infilling

对许多文本跨度进行采样，跨度长度从泊松分布 (λ = 3) 中得出。每个跨度都替换为单个 [MASK] 标记。 0 长度跨度对应于 [MASK] 标记的插入。文本填充的灵感来自 SpanBERT（Joshi 等人，2019），但 SpanBERT 从不同分布中采样跨度长度，并用长度完全相同的 [MASK] 标记序列替换每个跨度。文本填充教模型预测跨度中缺少多少标记。

Sentence Permutation

文档根据句号分为句子，这些句子以随机顺序打乱。

Document Rotation

一个 token 是随机均匀选择的，并且文档被旋转以使其以该 token 开始。此任务训练模型以识别文档的开头。

Fine-tuning BART

Sequence Classification Tasks

对于序列分类任务，相同的输入被馈送到编码器和解码器，最终解码器 token 的最终隐藏状态被馈送到新的多类线性分类器。这种做法与BERT中的 CLS token 有关；但是，我们将附加 token 添加到末尾，以便解码器中 token 的表示可以关注来自完整输入的解码器状态（图 3a）。

图 3：微调 BART 以进行分类和翻译。

Sequence Generation Tasks

因为 BART 有一个自回归解码器，它可以直接针对序列生成任务进行微调，例如抽象问答和摘要。在这两个任务中，信息都是从输入中复制但被操纵的，这与去噪预训练目标密切相关。这里，编码器输入是输入序列，解码器自回归生成输出。

Machine Translation

以前的工作表明，可以通过合并预训练的编码器来改进模型，但在解码器中使用预训练的语言模型的收益有限。我们表明，通过添加一组从 bitext 学习的新编码器参数，可以将整个 BART 模型（编码器和解码器）用作机器翻译的单个预训练解码器（参见图 3b）。

更准确地说，我们用一个新的随机初始化编码器替换了 BART 的编码器嵌入层。该模型是端到端训练的，它训练新的编码器将外来词映射到 BART 可以去噪到英语的输入中。新编码器可以使用与原始 BART 模型不同的词汇表。

我们分两步训练源编码器，在这两种情况下都从 BART 模型的输出反向传播交叉熵损失。第一步，我们冻结了大部分 BART 参数，只更新随机初始化的源编码器、BART 位置嵌入和 BART 编码器第一层的自注意力输入投影矩阵。在第二步中，我们为少量迭代训练所有模型参数。

Comparing Pre-training Objectives

BART 在预训练期间支持比以前的工作更广泛的噪声方案。我们使用基本尺寸模型（6 个编码器和 6 个解码器层，隐藏尺寸为 768）比较了一系列对象。

Comparison Objectives

我们重新实现了最近为判别和生成任务提出的强大的预训练方法。我们的目标是尽可能控制与预训练目标无关的差异。但是，我们确实对学习率和层归一化的使用进行了微小的更改，以提高性能（针对每个目标分别调整这些）。作为参考，我们将我们的实现与 BERT 发布的数字进行了比较，BERT 还结合书籍和维基百科数据进行了 100 万步的训练。
我们比较以下方法：

Language Model

与 GPT (Radford et al., 2018) 类似，训练了一个从左到右的 Transformer 语言模型。该模型相当于 BART 解码器，没有交叉注意。

Permuted Language Model

基于 XLNet (Yang et al., 2019)，我们对 1/6 的 token 进行采样，并以自回归的随机顺序生成它们。为了与其他模型保持一致，我们没有在 XLNet 中跨段实现相对位置嵌入或注意力。

Masked Language Model

基于 BERT (Devlin et al., 2019) ，我们用 [MASK] 符号替换了 15% 的标记，并训练模型独立预测原始标记。

MultiTask Masked Language Model

与 UniLM (Dong et al., 2019) 一样，我们训练了一个带有额外自注意力掩码的掩码语言模型。自注意力掩码按以下比例随机选择：1/6 从左到右，1/6 从右到左，1/3 未掩码，1/3 前 50% 的标记未掩码，其余部分从左到右掩码。

Masked Seq-to-Seq

对于 Permuted LM、Masked LM 和 Multitask Masked LM，我们使用双流注意力 (Yang et al., 2019) 来有效计算序列输出部分的似然性（在输出上使用对角自注意力掩码来预测从左到右的单词）。

我们尝试（1）将任务视为标准的序列到序列问题，其中编码器的源输入和目标是解码器的输出，或（2）将源作为前缀添加到解码器中的目标，仅在序列的目标部分有损失。我们发现前者更适合 BART 模型，后者更适合其他模型。

为了最直接地比较我们的模型对微调目标（人类文本的对数似然）建模的能力，我们在表 1 中报告了困惑度。

表 1：预训练目标的比较，包括受 BERT、MASS、GPT、XLNet 和 UniLM 启发的方法。所有模型的大小都与 BERT Base 相似，并且在相同数据上经过 1M 步训练。底部两个块中的条目使用相同的代码库在相同的数据上进行训练，并使用相同的程序进行微调。第二块中的条目受到先前工作中提出的预训练目标的启发，但已被简化为专注于评估目标。不同任务的性能差异很大，但带有文本填充的 BART 模型表现出最稳定的性能。

Tasks

SQuAD(Rajpurkar et al., 2016) 维基百科段落的抽取式问答任务。答案是从给定文档上下文中提取的文本范围。与 BERT (Devlin et al., 2019) 类似，我们使用连接的问题和上下文作为 BART 编码器的输入，并将它们另外传递给解码器。该模型包括用于预测每个标记的开始和结束索引的分类器。

MNLI(Williams et al., 2017)，一种双文本分类任务，用于预测一个句子是否包含另一个句子。微调模型将两个句子与附加的 EOS 令牌连接起来，并将它们传递给 BART 编码器和解码器。与 BERT 相比，EOS 令牌的表示用于对句子关系进行分类。

ELI5(Fan et al., 2019)，一个长形式的抽象问答数据集。模型根据问题和支持文档的连接生成答案。

XSum(Narayan et al., 2018)，一个具有高度抽象摘要的新闻摘要数据集。

ConvAI2(Dinan et al., 2019)，一个对话响应生成任务，以上下文和用户画像为条件。

CNN/DM(Hermann et al., 2015)，一个新闻摘要数据集。这里的摘要通常与源语句密切相关。

Results

Performance of pre-training methods varies significantly across tasks

预训练方法的有效性高度依赖于任务。例如，一个简单的语言模型实现了最好的 ELI5 性能，但最差的 SQuAD 结果。

Token masking is crucial

基于旋转文档或置换句子的预训练目标在孤立的情况下表现不佳。成功的方法要么使用令牌删除或掩码，要么使用自注意力掩码。在生成任务上，删除似乎胜过掩蔽。

Left-to-right pre-training improves generation

Masked Language Model 和 Permuted Language Model 在生成方面的表现不如其他语言模型，并且是我们认为的唯一在预训练期间不包括从左到右自回归语言建模的模型。

Bidirectional encoders are crucial for SQuAD

正如之前的工作（Devlin 等人，2019）所指出的，只是从左到右的解码器在 SQuAD 上表现不佳，因为未来的上下文在分类决策中至关重要。但是，BART 仅用一半的双向层数即可实现类似的性能。

The pre-training objective is not the only important factor

我们的置换语言模型表现不如 XLNet (Yang et al., 2019)。这种差异的一部分可能是由于不包括其他架构改进，例如相对位置嵌入或段级递归。

Pure language models perform best on ELI5

ELI5 数据集是一个异常值，比其他任务具有更高的困惑度，并且是唯一一个其他模型优于 BART 的生成任务。纯语言模型表现最好，这表明当输出仅受输入松散约束时，BART 效率较低。

BART achieves the most consistently strong performance.

除了 ELI5，使用文本填充的 BART 模型在所有任务上都表现良好。

Discriminative Tasks

表 3 和表 2 比较了 BART 与最近在经过充分研究的 SQuAD 和 GLUE 任务上的几种方法的性能。

最直接可比的基线是 RoBERTa，它使用相同的资源进行了预训练，但目标不同。总体而言，BART 的表现相似，在大多数任务上模型之间只有很小的差异。表明 BART 对生成任务的改进并不以牺牲分类性能为代价。

表 2：大型模型在 GLUE 任务上的结果。 BART 的性能与 RoBERTa 和 XLNet 相当，这表明 BART 的单向解码器层不会降低判别任务的性能。

表 3：BART 在问答方面给出了与 XLNet 和 RoBERTa 相似的结果。

Generation Tasks

对于文本生成任务，BART 被微调为从输入到输出文本的标准序列到序列模型。在微调期间，我们使用标签平滑交叉熵损失 (Pereyra et al., 2017)，平滑参数设置为 0.1。在生成过程中，我们将波束大小设置为 5，在波束搜索中删除重复的三元组，并在验证集上使用 min-len、max-len、长度惩罚来调整模型（Fan et al., 2017）。

Summarization

为了与摘要中的最新技术进行比较，我们展示了两个摘要数据集 CNN/DailyMail 和 XSum 的结果，它们具有不同的属性（表 4）。

表 4：两个标准汇总数据集的结果。 BART 在任务和所有指标的总结方面都优于以前的工作，包括基于大规模预训练的那些。

CNN/DailyMail 中的摘要往往类似于源语句。提取模型在这里做得很好，甚至前三个源句的基线也很有竞争力。然而，BART 优于所有现有工作。相比之下，XSum 是高度抽象的，而抽取模型表现不佳。 BART 在所有 ROUGE 指标上的表现都比基于 RoBERTa 的最佳先前工作高出大约 3.5 分——代表了在这个问题上的性能显着进步。

我们还进行人工评估（表 5）。注释者被要求从两个摘要中选择一个更好的一个段落。一个摘要来自 BART，另一个是人类参考或 BERTSUMEXTABS 模型的公开输出。与自动化指标一样，BART 明显优于之前的工作。但是，它在这项任务上还没有达到人类的表现。

表 5：对 XSum 的人工评估：BART 摘要优于以前工作的摘要，而不是人工编写的参考摘要。

Dialogue

我们在 CONVAI2（Dinan 等人，2019 年）上评估对话响应生成，其中代理必须根据先前的上下文和文本指定的角色生成响应。 BART 在两个自动化指标上的表现优于以前的工作。

表 6：BART 在会话响应生成方面优于以前的工作。 Perplexities 基于 ConvAI2 的官方标记器重新规范化。

Abstractive QA

我们使用最近提出的 ELI5 数据集来测试模型生成长自由形式答案的能力。我们发现 BART 比之前最好的工作高出 1.2 ROUGE-L，但数据集仍然具有挑战性，因为问题的答案只是微弱地指定。

表 7：BART 在具有挑战性的 ELI5 抽象问答数据集上取得了最先进的结果。

Translation

我们还评估了 WMT16 罗马尼亚英语的性能，并使用 Sennrich 等人的回译数据进行了扩充。我们使用 6 层转换器源编码器将罗马尼亚语映射为 BART 能够将噪声消除为英语的表示。

实验结果如表 8 所示。我们将我们的结果与 baseline Transformer 架构（Vaswani 等人，2017）和 Transformer-large 设置（baseline行）进行比较。我们在固定 BART 和调整 BART 行中展示了我们模型的两个步骤的性能。对于每一行，我们都在原始 WMT16 罗马尼亚语-英语上进行了实验，并增加了回译数据。我们使用 5 的波束宽度和 α = 1 的长度惩罚。初步结果表明，我们的方法在没有反向翻译数据的情况下效率较低，并且容易过度拟合——未来的工作应该探索额外的正则化技术。

表 8：WMT’16 RO-EN 上baseline和 BART 的 BLEU 分数，增加了反向翻译数据。 BART 通过使用单语英语预训练改进了强大的反向翻译baseline。

Qualitative Analysis

BART 在摘要指标上显示出很大的改进，比之前的最新状态提高了 3.5 个百分点。为了了解 BART 在自动化指标之外的表现，我们定性地分析了它的世代。表 9 显示了 BART 生成的代表性示例摘要，说明了其主要优势和劣势。示例取自创建预训练语料库后发布的 WikiNews 文章，以消除所描述事件出现在模型训练数据中的可能性。我们在总结之前删除了文章的第一句话，因此没有简单的文档摘要摘要。

表 9：WikiNews 文章中 XSum-tuned BART 模型的示例摘要。为清楚起见，仅显示来源的相关摘录。摘要结合了文章中的信息和先验知识。

不出所料，模型输出是流利且符合语法的英语。然而，输出也是高度抽象的，几乎没有复制的短语。摘要通常在事实上是准确的，并将来自输入文档的支持证据与背景知识相结合（例如，正确填写姓名，或推断 PG&E 在加利福尼亚州运营）。在第一个例子中，推断鱼类正在保护珊瑚礁免受全球变暖的某些影响需要非平凡的推论。这些样本表明，BART 预训练已经学会了自然语言理解和生成的强大组合。

Conclusion

我们介绍了 BART，这是一种预训练方法，可以学习将损坏的文档映射到原始文档。BART 在判别任务上的表现与 RoBERTa 相当，并在几个文本生成任务上取得了新的最先进的结果。未来的工作应该探索用于预训练破坏文档的新方法，也许可以根据特定的最终任务定制它们。

【Python高阶篇】探索人工智能：使用Python构建一个简单的聊天机器人码农必胜客 python 人工智能机器人
人工智能是计算机科学中一个非常热门的领域，近年来得到了越来越多的关注。它通过模拟人类思考过程和智能行为来实现对复杂任务的自主处理和学习，已经被广泛应用于许多领域，包括语音识别、自然语言处理、机器人技术、图像识别和推荐系统等。本文将介绍如何使用Python构建一个简单的聊天机器人，以展示人工智能的基本原理和应用。我们将使用Python语言和自然语言处理库来构建一个聊天机器人，该机器人可以接收用户的输
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
深度ResUnet与ResUnet++：新一代的语义分割神器倪澄莹George
深度ResUnet与ResUnet++：新一代的语义分割神器去发现同类优质开源项目:https://gitcode.com/在这个数据驱动的时代，深度学习模型在图像处理领域展现出了强大的潜力，尤其是在语义分割任务中。今天，我们向您推荐一个基于PyTorch实现的开源项目——DeepResUnet和ResUnet++。这两个模型源自于学术界的最新研究，旨在提高图像分割的准确性和效率。项目介绍这个开源
医学类使用TransUNet、UNet、DeepLabV3+、HRNet、PSPNet 模型对息肉分割数据集进行训练、评估和可视化 EDD2020息肉数据集分割数据集计算机C9硕士_算法工程师数据集语义分割医学类数据集语义分割息肉 TransUNet UNet
息肉数据集/息肉瘤分割项目解决（已处理好:EDD2020数据集(EndoscopyDiseaseDetectionandSegmentationChallenge)该息肉分割数据集主要包含人体生长的（肠胃）息肉用于器官内部息肉瘤分割，息肉目标检测，息肉定位任务息肉分割是一个重要的医学影像分析任务，特别是在内窥镜检查中。EDD2020数据集是一个很好的起点。我们将使用几种流行的深度学习模型（如Tra
Python | 基于支持向量机（SVM）的图像分类案例 python收藏家 python 机器学习 python 机器学习
支持向量机（SVM）是一种监督机器学习算法，可用于分类和回归任务。在本文中，我们将重点关注使用SVM进行图像分类。当计算机处理图像时，它将其视为二维像素阵列。数组的大小对应于图像的分辨率，例如，如果图像是200像素宽和200像素高，则数组的尺寸为200x200x3。前两个维度分别表示图像的宽度和高度，而第三个维度表示RGB颜色通道。数组中的值范围为0到255，表示每个点处像素的强度。为了使用SVM
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南 m0_57781768 langchain python 网络
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南前言在当前的人工智能浪潮中，大型语言模型（LLM）已成为众多应用的核心。LangChain是一个专为开发大型语言模型应用而设计的框架，它简化了LLM应用的整个生命周期，包括开发、生产化和部署。本文将详细介绍LangChain框架的各个方面，涵盖其核心组件、第三方集成、开发教程、API参考等，并通过实际案例展示如何使用La
L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
P5学习笔记无涯学徒1998 python pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊运动鞋品牌识别设置GPU导入数据构建CNN模型编写训练函数编写测试函数设置动态学习率等间隔动态调整自定义调整多间隔调整余弦退火正式训练结果可视化使用模型进行预测个人总结设置GPUimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchv
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
【机器学习】必会降维算法之：多维缩放（MDS） Carl_奕然机器学习算法人工智能
多维缩放（MDS）1、引言2、多维缩放（MDS）2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小鱼：最近小屌丝在休假，难得的清闲，我这也闲言少叙，书归正传，咱就聊一聊降为算法之：多维缩放(MDS)在机器学习和数据科学领域，多维缩放（MultidimensionalScaling，简称MDS）是一种常用的降维技术。它能够在尽可能保留原始数据点间距离的
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
《从传统到智能：大模型交换机的变革之路》烁月_o9 数据库服务器运维 web安全安全
大模型交换机是一种专门为大规模人工智能模型提供网络和计算资源调度的硬件设备。以下是关于它的详细介绍：特点高带宽和低延迟：大模型的训练和推理通常需要处理大量的数据，高带宽可以确保数据在各个计算节点之间快速传输，低延迟则能减少数据传输过程中可能出现的瓶颈，提高训练和推理的效率。智能路由与数据调度：基于AI算法的调度机制，能够动态地调整数据传输路径，以应对不同网络条件和负载的变化，避免某些节点的拥塞，确
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
深度学习｜表示学习｜卷积神经网络｜由参数共享引出的特征图｜08 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：FeatureMap（特征图）的概念与ParameterSharing（参数共享）密切相关。换句话说，参数共享是生成FeatureMap的基础。FeatureMap是卷积操作的核心产物，而卷积操作的高效性正是由参数共享带来的。下面我们详细看一下FeatureMap和ParameterSharing之间的关系：1.什么是FeatureMap？定义：FeatureMap是卷积操作生成的输出结
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
『大模型笔记』AI自动化编程工具汇总[持续更新ING]！ AI大模型前沿研究大模型笔记大模型 AI自动化工具 bolt.new Cursor V0
『大模型笔记』AI自动化编程工具汇总！文章目录一.Bolt.new(开源AI驱动全栈Web开发工具)1.1.Bolt.new介绍1.2.编程小白如何打造自己的导航网站二.Cursor(人工智能代码编辑器)2.1.Cursor入门教程2.2.Cursor左侧布局设置和VSCode一样2.3.Cursor效率之道：Agent模式＋7大高级技巧详解三.Windsurf(颠覆Cursor的全新工具)3.1
龙珠训练营机器学习task04 a_little_pig_ python
学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：https://tianchi.aliyun.com/competition/entrance/231702/introduction?spm=5176.20222472.J_3678908510.8.8f5e67c2RKrT98总体思路：分别使用LightGBM，xgboost，gbdt，catboost建立多个个体学习器（加入b
大模型中的分词技术 BBPE 禅与计算机技术深度学习大模型 NLP 深度学习 nlp 中文分词机器学习
一、OOV问题和多语言场景在自然语言处理（NLP）中，OOV（Out-of-Vocabulary）问题是指模型在处理文本时遇到未在词表中出现过的词汇，导致无法有效处理这些词汇的情况。这一问题在多语言场景中尤为突出，因为不同语言在词汇、语法结构和表达方式上存在显著差异，单一语言的词表难以全面覆盖多语言的复杂性。在多语言场景下的NLP任务中（如机器翻译、跨语言文本分类等），模型需要处理多种语言的混合文
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
RPA真的是人工智能吗？微刻时光 RPA加油站 rpa 人工智能
1.RPA与AI的定义与区别1.1RPA的定义与特点机器人流程自动化（RoboticProcessAutomation，简称RPA）是一种软件技术，它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括：非侵入性：RPA作为外挂工具部署在客户现有系统上，不影响原有IT基础架构。基于规则的操作：RPA流程必须有明确的、可被数字化的触发指令和输入，不允许出现无法提前定义的例
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
浅析AI大模型现状及其应用，零基础入门到精通，收藏这篇就够了程序员_大白互联网程序员大模型人工智能数据挖掘大模型
随着人工智能技术的迅猛发展，AI大模型已经成为全球科技竞争的焦点，展现出巨大的发展潜力和广阔的应用前景。AI大模型的应用落地正引发行业关注，技术进步正促使AI大模型的应用逐步从云端向终端设备延伸，从通用模型向针对特定行业的定制化解决方案转变，其商业潜力和对行业的影响不断增强。与此同时，国内外企业在大模型领域的竞争日趋激烈。AI大模型蓬勃发展AI大模型主要特征AI大模型具有泛化性(知识迁移到新领域)
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

论文阅读：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation,

论文阅读：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

你可能感兴趣的:(nlp论文阅读,机器学习,人工智能,深度学习,自然语言处理,nlp)