Rose sait

T5：Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer

论文：https://arxiv.org/pdf/1910.10683.pdf

0 Abstract

1 Introduction

2 Setup

2.1 Model

2.2 The Colossal Clean Crawled Corpus

2.3 Downstream Tasks

2.4 Input and Output Format

3. Experiments

3.1 Baseline

3.1.1 Model

3.1.2 Training

3.1.3 Vocabulary

3.1.4 Unsupervised Objective

3.1.5 Baseline Performance

3.2 Architectures

3.2.1 Model structures

3.2.2 Comparing different model structures

3.2.3 Objectives

3.2.4 Results

3.3 Unsupervised objectives

3.4 Pre-training Data set

3.4.1 Unlabeled Data Sets

3.5 Training Strategy

3.5.1 Fine-tuning Methods

3.5.2 Multi-task learning

3.5.3 Combining multi-task learning with fine-tuning

3.6 Scaling

4. Reflflection

参考

0 Abstract

在迁移学习中，模型首先在数据丰富的任务上进行预训练，然后在下游任务上进行微调。

在本文中，我们通过引入一个统一的框架，将所有基于文本的语言问题转换为文本到文本的格式，来探索自然语言处理中迁移学习技术的前景。

我们的系统研究比较了几十个语言理解任务的预训练目标、架构、未标记数据集、迁移方法和其他因素。

1 Introduction

工作的基本思想是将每一个文本处理问题都视为一个“文本到文本”的问题，即把文本作为输入，产生新的文本作为输出。这种方法受到了以前NLP任务统一框架的启发，包括将所有文本问题转换为问答(McCann et al.,2018)，语言建模(Radford et al.,2019)，或跨度提取Keskar et al. （2019b)任务。

文本到文本框架允许我们将相同的模型、目标、训练程序和解码过程直接应用到我们考虑的每一项任务中。我们通过评估各种基于英语的自然语言处理问题的表现来利用这种灵活性，包括问答、文档概括和情感分类，仅举几个例子。通过这种统一的方法，我们可以比较不同迁移学习目标、未标记数据集和其他因素的有效性，同时通过扩展模型和数据集来探索NLP迁移学习的限制。

目标不是提出新的方法，而是对该领域的现状提供一个全面的视角。因此，我们的工作主要包括对现有技术的调查、探索和经验比较。我们还探索了当前方法的局限性，方法是扩大我们系统研究(训练模型高达110亿个参数)的洞察力，以在我们考虑的许多任务中获得最先进的结果。为了进行这种规模的实验，我们引入了“庞大的干净爬行语料库”(C4)，这是一个由从网络上搜集的数百千兆字节的干净英语文本组成的数据集。认识到迁移学习的主要效用是在数据稀缺的环境中利用预训练模型的可能性，我们发布了我们的代码、数据集和预训练模型。

2 Setup

在展示本文大规模实证研究的结果之前，先回顾一下我们的结果所需的必要背景主题，包括transformer模型架构和评估的下游任务。

还介绍了个问题作为文本到文本任务处理的方法，并描述了“庞大干净的爬行语料库”(C4)，这是我们作为未标记文本数据的来源创建的常见的基于爬行的数据集。本文将模型和框架称为“Text-to-Text Transfer Transformer”(T5)。

2.1 Model

除了下面提到的细节和在第3.2节中探索的变体之外，本模型并没有明显偏离transformer架构，

transformer的主要构件是self-attention，self-attention是attention的一种变体，它通过用序列其余部分的加权平均值替换每个元素来处理序列。最初的 Transformer 由encoder-decoder架构组成，旨在用于序列到序列的任务。最近，使用由单个 Transformer 层堆栈组成的模型也变得很普遍，这些模型具有不同形式的自注意力，用于生成适用于语言建模或分类和跨度预测任务的架构。在 3.2 节中经验性地探索了这些架构变体。

本文的编码器-解码器 Transformer 实现非常接近其最初提出的形式。

首先，将输入的token序列映射到嵌入序列，然后将其传递给编码器。编码器由一堆“块(blocks)”组成，每个“块”都包含两个子组件：一个自注意力层，然后是一个小型前馈网络。层标准化应用于每个子组件的输入。我们使用简化版本的层归一化，其中仅重新调整激活值，不应用附加偏差。在层归一化之后，残差跳过连接将每个子组件的输入添加到其输出中。 Dropout 应用于前馈网络、skip connection、注意力权重以及整个堆栈的输入和输出。

解码器在结构上与编码器相似，只是它在每个关注编码器输出的自注意力层之后包括一个标准的注意力机制。解码器中的自注意力机制还使用了一种自回归或因果自注意力(causal self-attention)的形式，它只允许模型关注过去的输出。最终解码器块的输出被馈送到具有 softmax 输出的密集层，其权重与输入嵌入矩阵共享。 Transformer 中的所有注意力机制都被分成独立的“头(heads)”，其输出在进一步处理之前被连接起来。

由于自注意是与顺序无关的（即它是一个对集合的操作），因此通常会向Transformer提供一个显式的位置信号。虽然原始Transformer使用正弦位置信号或学习位置嵌入，但最近使用相对位置嵌入变得更加普遍。相对位置嵌入不是对每个位置使用固定的嵌入，而是根据自我注意机制中比较的“键”和“查询”之间的偏移量产生不同的学习嵌入。我们使用一种简化的位置嵌入形式，其中每个“embedding”只是一个标量，添加到用于计算注意力权重的相应的logit中。为了提高效率，我们还在模型中的所有层之间共享位置嵌入参数，尽管在给定层内，每个注意力头使用不同的学习位置嵌入。通常，学习固定数量的嵌入，每个嵌入对应于一系列可能的键查询偏移量。在这项工作中，我们为所有模型使用了32个嵌入，其范围以对数方式增大到偏量 128，超过该偏移量我们将所有相对位置分配给相同的嵌入。请注意，给定层对超过128 个标记的相对位置不敏感，但后续层可以通过组合来自前一层的局部信息来构建对更大偏移量的敏感性。

总而言之，我们的模型大致相当于原始Transformer。除了1、去除层范数偏差，2、将层归一化放在残差路径之外，3、使用不同的位置嵌入方案。

由于这些架构变化与我们在迁移学习的实证调查中考虑的实验因素正交，因此我们将消除它们对未来工作的影响。

2.2 The Colossal Clean Crawled Corpus

以前关于 NLP 迁移学习的大部分工作都利用大型未标记数据集进行无监督学习。在本文中，我们感兴趣的是测量这些未标记数据的质量、特征和大小的影响。为了生成满足我们需求的数据集，我们利用Common Crawl 作为从网络上抓取的文本来源。

Common Crawl 是一个公开可用的网络存档，它通过从抓取的 HTML 文件中删除标记和其他非文本内容来提供“网络提取的文本” 。这个过程每月产生大约 20TB 的抓取文本数据。但是大多数生成的文本不是自然语言。相反，它主要包含乱码或样板文本，如菜单、错误消息或重复文本。此外，大量抓取的文本包含不太可能对我们考虑的任何任务有帮助的内容（冒犯性语言、占位符文本、源代码等）。为了解决这些问题，我们使用以下启发式方法来清理Common Crawl 的网络提取文本：

我们只保留了以标点符号结尾的行(即句号、感叹号、问号或结束引号)。
我们丢弃了少于5个句子的页面，只保留了至少包含3个单词的行。
我们删除了任何包含“肮脏、下流、淫秽或其他不良词语列表”中任何词语的页面。
许多抓取的页面包含警告，声明应该启用Javascript，所以我们删除了任何带有Javascript的行。
一些页面有占位符“lorem ipsum”文本；我们删除了所有出现“lorem ipsum”字样的页面。
某些页面无意中包含代码。由于大括号“{”出现在许多编程语言中（例如 Javascript，在网络上广泛使用）但不在自然文本中，我们删除了所有包含大括号的页面。
为了对数据集进行重复数据删除，我们丢弃了数据集中不止一次出现的任何三句跨度中的一个。

此外，由于我们的大部分下游任务都集中在英语文本上，我们使用langdetect7以至少0.99的概率过滤掉任何未被分类为英语的页面。我们的启发式方法受到过去使用Common Crawl作为 NLP 数据源的工作的启发。

为了组装我们的基础数据集，我们从2019年4月下载了网络提取的文本，并应用了上述过滤。这产生的文本集合不仅比用于预训练的大多数数据集（约750 GB）大几个数量级，而且还包含相当干净和自然的英文文本。我们将此数据集称为“Colossal Clean Crawled Corpus”（或简称 C4）并将其作为 TensorFlow 数据集的一部分发布。在第3.4节中考虑了使用该数据集的各种替代版本的影响。

2.3 Downstream Tasks

目标是衡量一般语言学习能力。

因此，我们研究了一系列不同基准的下游性能，包括机器翻译、问答、抽象摘要和文本分类。具体来说，我们测量了GLUE和SuperGLUE文本分类元基准的性能；CNN/Daily Mail抽象摘要；SQuAD问答；和 WMT 英语到德语、法语和罗马尼亚语的翻译。所有数据均来自TensorFlow Datasets。

GLUE和 SuperGLUE均包含一组文本分类任务，旨在测试一般语言理解能力。

实验中，模型被输入问题及其上下文，并被要求逐个生成答案。对于 WMT 英语到德语，我们使用与News Commentary v13, Common Crawl, Europarl v7和newstest2013相同的训练数据作为验证集。对于英语到法语，我们使用2015 年和newstest2014的标准训练数据作为验证集。对于英语到罗马尼亚语，这是一个标准的低资源机器翻译基准，我们使用 WMT 2016 的训练和验证集。我们只对英语数据进行预训练，因此为了学习翻译给定模型，需要学习以新语言生成文本。

2.4 Input and Output Format

为了在上述不同的任务集上训练单个模型，将考虑的所有任务转换为“文本到文本”格式，即在任务中为模型提供一些文本作为上下文或条件，然后被要求产生一些输出文本。该框架为预训练和微调提供了一致的训练目标。具体来说，该模型采用最大似然目标，无论任务如何，为了指定模型应该执行的任务，我们在原始输入序列中添加一个特定于任务的（文本）前缀，然后再将其提供给模型。

例如：机器翻译：“That is good.” ，英翻德

在输入句子前加上“translate English to German: ”的 prefix ，

输入句子变为：“translate English to German: That is good.”
经过模型之后会生成翻译好的句子“Das ist gut.”

我们能够直接将我们考虑的所有任务转换为文本到文本格式

但STS‑B除外，它是一个回归任务，其目标是预测1 到 5 之间的相似性分数。我们发现这些分数中的大多数都以 0.2为增量进行注释，因此我们只需将任何分数四舍五入到最接近的增量0.2，并将结果转换为数字的文字字符串表示（例如，浮点值2.57 将映射到字符串“ 2.6”）。在测试的时候，如果模型输出一个字符串，对应一个 1 到 5 之间的数字，我们将其转换为浮点值；否则，我们将模型的预测视为不正确这有效地将 STS‑B回归问题重铸为21-class classifification problem。

3. Experiments

NLP 迁移学习的最新进展来自各种发展，例如新的预训练目标、模型架构、未标记的数据集等。在本节中，我们对这些技术进行了实证调查，希望能够梳理出它们的贡献和意义。

我们通过采用合理的baseline（在第3.1节中描述）并一次更改设置的一个方面来系统地研究这些贡献；我们对模型架构(第3.2节)，无监督的目标(第3.3节)、预训练数据集(第3.4节)、转移方法(第3.5节)，以及缩放(第3.6节)进行empirical comparison，在本节的高潮部分，我们将研究中的见解与scale相结合，以在我们考虑的许多任务中获得最先进state-of-the-art的结果(第3.7节)。

3.1 Baseline

使用一个简单的去噪目标来预训练一个标准Transformer，分别对我们的每个下游任务进行微调。我们在以下小节中描述了这个实验设置的细节。

3.1.1 Model

对于我们的模型，我们使用标准编码器‑解码器 Transformer。

虽然许多用于 NLP 迁移学习的现代方法使用仅由单个“堆栈”组成的 Transformer 架构，但是我们发现使用标准的编码器‑解码器结构在生成和分类任务上都取得了很好的效果。

将在3.2节探讨不同模型架构的性能。

本文选用的baseline模型与Bert_base很接近，编码器和解码器都由 12 个块组成（每个块包括自注意力、可选的编码器‑解码器、注意力和前馈网络）。每个块中的前馈网络由一个输出维度为dff = 3072 的密集层组成，然后是一个ReLU 非线性和另一个密集层。所有注意力机制的“关键”和“价值”矩阵的内部维度为dkv = 64，所有注意力机制都有 12个头。所有其他子层和嵌入的维数为dmodel = 768。总的来说，这导致模型具有大约 2.2 亿个参数。

由于baseline模型采用了双层的stacks，而非一个，所以参数量是Bert_base的2倍。

对于正则化，模型各处使用 dropout = 0.1。

3.1.2 Training

所有的任务都被表述为text-to-text，始终使用标准的最大似然进行训练，即使用teacher forcing和交叉熵损失，优化器：AdaFactor。在测试时，使用贪婪解码（即在每个时间步选择最高概率的logit）

在进行微调之前，我们在C4上对每个模型进行了2的19次方= 524,288步的预训练，最大序列长度512，batch size = 128，并且 pack 每个 batch 使其包含大约 512∗128= $2^{16}$ 个token。因此共计训练了 $2^{35}$ 即大约 34B 的token，这比 BERT 的 127B 和 RoBERTa 的 2.2T 要少得多。请注意， $2^{35}$ 仅覆盖整个 C4 数据集的一小部分，因此我们在预训练期间不会有重复数据。

预训练时使用 inverse square root 调整学习率： $1/\sqrt{max(n, k)}$ ， n 为当前训练迭代数， k 为 warm-up 的步骤数(所有实验都设为 )，即前次实验设置了 0.01 的恒定学习率，之后以指数形式衰减学习率。虽然使用三角学习率 triangular learning ratet结果更好，但需要提前知道训练步骤的总数。由于在某些实验中我们将改变训练步骤的数量，因此我们选择了更通用的inverse square root。

模型在所有任务上微调了 $2^{18}$ 步。选择此值是为了在高资源任务与低资源任务之间进行权衡，前者需要更多的微调步骤，后者很快会过拟合。在微调期间，每批 $2^{16}$ 个令牌不变并使用0.001的恒定学习率，每 5,000 个步骤保存一个检查点，并在模型检查点上报告验证集最佳结果。对于在多个任务上进行了微调的模型，我们分别为每个任务选择最佳检查点。对于第 3.7 节中的实验以外的所有实验，我们在验证集中报告结果，以避免在测试集中执行模型选择。

3.1.3 Vocabulary

我们使用 SentencePiece将文本编码为 WordPiece 标记。对于所有实验，我们使用32,000 个单词的词汇表。由于我们最终对英语到德语、法语和罗马尼亚语翻译的模型进行了微调，因此我们还要求我们的词汇表涵盖这些非英语语言。

为了解决这个问题，我们将 C4 中使用的 Common Crawl scrape 页面分类为德语、法语和罗马尼亚语。然后，我们用 10 部分英语 C4 数据和各1 部分分类为德语、法语或罗马尼亚语的数据训练我们的 SentencePiece 模型。这个词汇表在我们模型的输入和输出中共享。

我们的词汇表使我们的模型只能处理预定的、固定的语言集。

3.1.4 Unsupervised Objective

T5的预训练包含无监督和有监督两部分。

无监督部分使用的是Google构建的近800G的语料（论文称之为C4），而训练目标则跟BERT类似，只不过改成了Seq2Seq版本，我们可以将它看成一个高级版的完形填空问题：

输入：明月几时有，[M0]问青天，不知[M1]，今夕是何年。我欲[M2]归去，唯恐琼楼玉宇，高处[M3]；起舞[M4]清影，何似在人间。
输出：[M0]把酒[M1]天上宫阙[M2]乘风[M3]不胜寒[M4]弄

而有监督部分，则是收集了常见的NLP监督任务数据，并也统一转化为SeqSeq任务来训练。比如情感分类可以这样转化：

输入：识别该句子的情感倾向：这趟北京之旅我感觉很不错。
输出：正面

主题分类可以这样转化：

输入：面是一则什么新闻？八个月了，终于又能在赛场上看到女排姑娘们了。
输出：体育

阅读理解可以这样转化：

输入：阅读理解：特朗普与拜登共同竞选下一任美国总统。根据上述信息回答问题：特朗普是哪国人？
输出：美国

利用未标记的数据来预训练我们的模型需要一个objective，objective不需要标签，但是可以使模型得到在下游任务中有用的可概括的知识。

将预训练和微调所有模型参数的迁移学习范式应于NLP问题的初步工作：使用因果语言建模目标进行预训练。然而，最近已经表明“denoising”objective（也称为“掩码语言建模”）可以产生更好的性能。

在“denoising”objective中，模型被训练以预测输入中丢失或损坏的token。受 BERT 的“掩码语言建模”目标和“word dropout”正则化技术，我们设计了一个随机抽样的目标，然后在输入序列中丢弃 15% 的token。所有连续的丢弃token都被单个token替换。每个哨兵token都分配有一个对序列唯一的token ID。哨兵 ID是添加到我们的词汇表中的特殊token，不对应于任何单词。

然后，目标对应于所有丢弃的token span，由输入序列中使用的相同哨兵token加上最终哨兵token分隔，以标记目标序列的结束。我们选择对连续的token span进行掩码，并仅预测丢弃的token，这是为了降低预训练的计算成本。

下图显示了应用此目标所产生的转换示例。我们在经验上将此目标与第3.3节中的许多其他变体

进行了比较。

T5：Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer_第2张图片

3.1.5 Baseline Performance

在本节中，我们使用上述基线任务来展示结果，以了解我们的下游任务套件的预期性能。

理想情况下，我们会多次重复研究中的每个实验，以获得结果的置信区间。

但是由于非常昂贵，所以选择更便宜的替代方案，我们从头开始训练我们的基线模型10 次（即使用不同的随机初始化和数据集洗牌并假设这些基本模型运行的方差也适用于每个实验变体。

T5：Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer_第3张图片

3.2 Architectures

3.2.1 Model structures

Attention masks：
从mask的角度来看，有三种：

左：完全可见的掩码。输出的每个时间步会注意全部输入
中：因果掩码。防止第 i 个输出元素依赖于“未来”的任何输入元素
右：带前缀的因果掩码。使自我注意机制可以在输入序列的一部分上使用完全可见的掩码。

T5：Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer_第4张图片

首先作者们先对预训练模型中的多种模型架构（Transformer）进行了比对，最主要的模型架构可以分成下面三种。

Encoder-Decoder 型，即 Seq2Seq 常用模型，分成 Encoder 和 Decoder 两部分，对于 Encoder 部分，输入可以看到全体，之后结果输给 Decoder，而 Decoder 因为输出方式只能看到之前的。此架构代表是 MASS（今年WMT的胜者），而 BERT 可以看作是其中 Encoder 部分。
Language model，相当于上面的 Decoder 部分，当前时间步只能看到之前时间步信息。典型代表是 GPT2 还有最近 CTRL 这样的。
Prefix LM（Language Model）型，可看作是上面 Encoder 和 Decoder 的融合体，一部分如 Encoder 一样能看到全体信息，一部分如 Decoder 一样只能看到过去信息。最近开源的 UniLM 便是此结构。

上面这些模型架构都是 Transformer 构成，之所以有这些变换，主要是对其中注意力机制的 Mask 操作。

3.2.2 Comparing different model structures

为了提供合理的比较方法，我们考虑了编码器-解码器模型的多种配置。我们将 BERTBASE 大小的层块中的层数和参数分别称为 L 和 P 。我们将使用 M 来指代L + L层编码器-解码器模型或仅L层的解码器模型处理给定输入目标对所需的FLOP数量。总的来说，我们将进行比较：

在编码器中具有 L 层，在解码器中具有 L 层的编码器-解码器模型。该模型具有 2P 个参数和M FLOP的计算成本。
等效模型，但参数在编码器和解码器之间共享，即 P 个参数和 M FLOP计算成本。
在编码器和解码器中各具有 L / 2 层的编码器-解码器模型，提供 P 参数和 M/2 FLOP成本。
具有 L 层和 P 参数的纯解码器的语言模型，以及由此产生的M FLOP计算成本。
具有相同架构（因此具有相同数量的参数和计算成本），但对输入具有完全可见的自我注意力的解码器的前缀LM。

3.2.3 Objectives

基本语言建模目标以及第 3.1.4 节中描述的降噪目标作为无监督的目标。对于在进行预测之前先提取前缀的模型（编码器-解码器模型和前缀LM），我们从未标记的数据集中采样了一段文本，并选择一个随机点将其分为前缀和目标部分。对于标准语言模型，我们训练模型以预测从开始到结束的整个跨度。我们的无监督降噪目标是为 text-to-text 模型设计的；为了使其适应语言模型，我们将输入和目标连接起来，如3.2.1节所述。

3.2.4 Results

不同模型的对比结果如 Table 2所示：

与语言建模目标相比，使用降噪目标始终可以带来更好的下游任务性能。在以下部分中，我们将对无监督目标进行更详细的探讨。

3.3 Unsupervised objectives

本小节探索无监督目标过程中所做的选择，这是其流程图。第一步，对高层次方法（自监督的预训练方法）进行对比，选出性能最好的一个：Bert-style；第二步，对文本一部分进行破坏时的策略，replace span（小段替换）法效果最好；第三步，破坏比例，最后选用破坏15%；第四步，破坏长度选定，Replace Span 需要决定对大概多长的小段进行破坏，于是对不同长度进行探索，最后选择3 的破坏时小段长度。

本文对比的无监督目标函数有：prefix language modeling、masked language modeling (MLM)和deshuffling objective 这三种。

第一个方面，高层次方法（自监督的预训练方法）对比，总共三种方式。

语言模型式（prefix language modeling），就是 GPT-2 那种方式，从左到右预测；
BERT-style 式，就是像 BERT 一样将一部分给破坏掉，然后还原出来；
Deshuffling （顺序还原）式，就是将文本打乱，然后还原出来。

这三种目标函数的示例如 Table 3 中前3行所示：

其中发现 Bert-style 最好，进入下一轮。

第二方面，对文本一部分进行破坏时的策略，也分三种方法。

Mask 法，(第4行，MASS-style)如现在大多模型的做法，将被破坏 token 换成特殊符如 [M]；
replace span（小段替换）法，(第5行，I.i.d. noise, replace spans)可以把它当作是把上面 Mask 法中相邻 [M] 都合成了一个特殊符，每一小段替换一个特殊符，提高计算效率；
Drop 法，(第6行I.i.d. noise, drop tokens)没有替换操作，直接随机丢弃一些字符。

此轮获胜的是 Replace Span 法，类似做法如 SpanBERT 也证明了有效性。

进入下一轮。

第三方面，到底该对文本百分之多少进行破坏呢，挑了 4 个值，10%，15%，25%，50%，最后发现 BERT 的 15% 就很 ok了。

接着进入更细节，第四方面，因为 Replace Span 需要决定对大概多长的小段进行破坏，于是对不同长度进行探索，2，3，5，10 这四个值，对比性能结果，最终模型选用的是长度为3，因为长度短，训练速度越快。

终于获得了完整的 T5 模型，还有它的训练方法。

Transformer Encoder-Decoder 模型；
BERT-style 式的破坏方法；
Replace Span 的破坏策略；
15 %的破坏比；
3 的破坏时小段长度。

到此基本上 T5 预训练就大致说完了。

3.4 Pre-training Data set

3.4.1 Unlabeled Data Sets

在以下数据集上进行预训练后比较基线模型的性能：

C4：作为基准，首先在我们发布的未标记数据集进行预训练。
Unfiltered C4：为了衡量我们在创建C4中使用的启发式过滤的效果，我们还生成了C4的替代版本，该版本放弃了过滤。请注意，我们仍然使用 langdetect 提取英文文本。结果，我们的“未过滤”变体仍包含一些过滤，因为 langdetect 有时会给不自然的英语文本分配低概率。
RealNews-like：使用了从新闻网站提取的文本数据。为了进行比较，我们额外过滤C4使其仅包括一个“RealNews”数据集对应的域的内容来生成另一个未标记的数据集。请注意，为便于比较，我们保留了C4中使用的启发式过滤方法。唯一的区别是，表面上我们忽略了任何非新闻内容。
WebText-like：WebText数据集仅使用提交到内容聚合网站 Reddit 且收到的“score”至少为3的网页内容。提交给Reddit的网页得分基于认可或反对网页的用户比例。使用Reddit分数作为质量信号的背后想法是，该网站的用户只会上传高质量的文本内容。为了生成可比较的数据集，我们首先尝试从C4中删除所有不是 OpenWebText[13] 列表中出现的URL。但是，由于大多数页面从未出现在Reddit上，因此内容相对较少，仅约 2 GB。为避免使用过小的数据集，因此我们从2018年8月至2019年7月从 Common Crawl 下载了12个月的数据，对 C4 和 Reddit 应用了启发式过滤，产生了一个17 GB的类似 WebText 的数据集，其大小与原始40GB的 WebText 数据集相类似。
Wikipedia：Wikipedia网站包含数以百万计的协作撰写的百科全书文章。该网站上的内容受严格的质量准则约束，因此已被用作可靠且纯净的自然文本来源。我们使用 TensorFlow Datasets[14] 的英文 Wikipedia 文本数据，其中省略了文章中的任何标记或参考部分。
Wikipedia + Toronto Books Corpus：使用来自 Wikipedia 的预训练数据的缺点是，它仅表示自然文本的一个可能域（百科全书文章）。为了缓解这种情况，BERT将来自维基百科的数据与多伦多图书公司进行了组合。 TBC包含从电子书中提取的文本，它代表自然语言的不同领域。

从C4里面分出各种类型的数据集，单独训练 T5 模型，之后看在下游任务的表现，发现一些情况领域内的预训练数据可以增强下游任务。而 C4 完整数据集因为数据太多太杂，可能反而不如这种领域内较少数据集。

表 8 显示了每个数据集预训练后获得的结果。明显的收获是，C4中删除启发式过滤会降低性能，并使未过滤的变体在每个任务中表现最差。

3.4.2 Pre-training Data set Size

本文创建C4的方法旨在能够创建非常大的预训练数据集。对大量数据的访问使我们能够对模型进行预训练，而无需重复样本。

目前尚不清楚在预训练期间重复样本是会对下游性能有所帮助还是有害，因为我们的预训练目标本身就是随机的，并且可以帮助防止模型多次看到相同的数据。

从 C4 中抽出不同量数据做实验，发现数据少时，模型会记住数据所以之后表现会比较差。

T5：Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer_第16张图片

最终的下游性能如表9所示，随着数据集大小缩小而下降。我们怀疑这可能是由于该模型开始记住预训练数据集。为了测量这是否成立，我们在图6中绘制了每种数据集大小的训练损失。的确，随着预训练数据集的大小缩小，该模型获得的训练损失明显较小，这表明可能存在记忆。

3.5 Training Strategy

针对 MTDNN 给 T5 做了一系列类似训练，在一堆监督和非监督数据上进行预训练。结果发现，只要混合训练比例调得OK，和前面说的非监督预训练性能差不多。

3.5.1 Fine-tuning Methods

微调模型的所有参数可能会导致结果欠佳，我们专注于两种替代的微调方法，这些方法仅更新编码器-解码器模型的参数的子集。

adapter layers：在微调时保持大多数原始模型固定不变。在Transformer每个block中的前馈神经网络后添加dense-ReLU-dense blocks。新的前馈网络使得输出可以与输入维度匹配。（这样就可以将它们插入网络，而无需更改结构或参数）进行微调时，仅更新适配器层和层归一化参数。这种方法的主要超参数是前馈网络的内部维数 d ，它改变了添加到模型中的新参数的数量。我们用 d 的各种值进行实验。
gradual unfreezing：逐步解冻最初应用于包含单个块层(a single stack of layers)的语言模型体系结构。这种方式是更新模型参数的范围随着随着时间扩大。初始微调时，只有最后一层的参数被更新，训练一段时间后，倒数第2层及其之后层的参数被更新，直至整个网络的参数都被更新。应用到本文的框架，这种方式是有所改动的。

表10 表明，adapter layers 可能是一种在较少参数上进行微调的有前途的技术，只要将维度适当地缩放到任务大小即可。

3.5.2 Multi-task learning

所谓多任务学习是同时在多个任务上训练一个模型，其目的是训练一个能同时处理多个任务的模型，即该模型中的绝大数参数在多个任务之间是共享的。本文对此目标稍稍宽松，转而研究对多个任务同时进行训练的方法，以便最终生成对每个单独任务都表现良好的独立参数。所以，本文这里是简化版的多任务学习，并不热衷于多任务之间的参数共享，而是更关注于用同一个时间训练多个任务。例如，我们或许可以在多个任务上训练一个模型，但是应用到具体任务时候，可以针对不同的任务选用不同的checkpoint。这就放宽了多任务学习框架，与当下我们所考虑的预训练-微调的方法相比，它的基础才显得牢固。还注意到，在本文统一的text-to-text框架中，“多任务学习”简单地对应于将数据集混合在一起。相比之下，此前NLP中的多任务学习大多数都是为每个任务添加特定的分类网络或使用不同的损失函数。

那么多任务中，一个非常重要的问题来了，每个任务需要用多少数据进行训练？本文探索了三种方案：Examples-proportional mixing、Temperature-scaled mixing 和 Equal mixing。

实验发现，多任务训练一般是无法于预训练-微调方法相媲美的。

3.5.3 Combining multi-task learning with fine-tuning

进一步研究了如何缩小多任务训练和预训练-微调的差距。研究了以下三种方案：
(1)examples-proportional mixture 数据的预训练，再下游任务微调。这有助于我们衡量，在训练前将监督任务与非监督目标放在一起，是否会让模型更早地接触到下游任务。
(2)相同 examples-proportional mixture 数据上预训练模型，但是在预训练混合的下游任务中丢弃一个。
(3)对于全部的有监督任务的数据以examples-proportional mixture 进行预训练。

上述几种方案的对比结果见于 Table 12：

从中可以看出，多任务预训练+微调的方式可以取得于baseline近似的结果。这表明多任务学习之后，再进行微调确实有助于缓解不同混合比例之间的一些权衡。另外，抛弃一个任务(“leave-one-out”)的训练结果仅仅轻微下降，说明模型在多个任务上训练确实可以应用于新的任务上。多任务预训练可能不会导致剧烈的任务干扰。

3.6 Scaling

接着又做了当放大模型某方面规模的相关实验，分别是增大模型，增大数据，还有在一定资源限制下的集成。

结论是，当这些因素放大时对性能都有提高，但其中大模型是最必要的。

这里说的规模，涉及模型的规模、训练的时长规模和 batch size。
这里的对比的一个前提是，假如有4倍的算力，怎么来分配？可以有以下方案：
(1)训练得久些，原来的4倍
(2)每个batch size 扩大为原来4倍
(3)模型扩大2倍，训练时长扩大2倍
(4)模型扩大4倍

具体结果如 Table 13 所示：

4. Reflflection

本文提出的text-to-text 框架将NLP进行统一，并详尽地分析了架构、无监督目标函数、数据集、训练方法和规模等因素的影响。

大模型的难处：我们也知道大模型表现好，终究不是长久之计，distillation、parameter sharing和conditional computation 或许是一条新出路。

更高效地抽取知识：我们需要一个更有效的方法来学到通用的知识，强烈怀疑BERT-style loss的效率。

形式化任务之间的相似性：需要一个衡量pre-training和下游任务相似性的方法。

与语言无关的模型：English-only pre-training没能在翻译任务上达到SOTA的表现，说明单一语言还是有局限性。不受语言限制的模型可能是未来的一个研究方向。

参考

T5: Text-to-Text Transfer Transformer 阅读笔记 - 知乎

T5 模型：NLP Text-to-Text 预训练模型超大规模探索 - 知乎

文献阅读笔记：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)_JasonLiu1919的博客-CSDN博客

那个屠榜的T5模型，现在可以在中文上玩玩了 - 知乎

你可能感兴趣的:(深度学习,自然语言处理,人工智能)

PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe