神洛华

李沐论文精读系列一： ResNet、Transformer、GAN、BERT

文章目录

- 一、 ResNet
- - 1.0 摘要，论文导读
  - 1.1 导论
  - - 1.1.1 为什么提出残差结构？
    - 1.1.2 实验验证
  - 1.2 相关工作
  - 1.3 实验部分
  - - 1.3.1 不同配置的ResNet结构
    - 1.3.2 残差结构效果对比
    - 1.3.3 残差结构中，输入输出维度不一致如何处理
    - 1.3.4 深层ResNet引入瓶颈结构Bottleneck
  - 1.4 代码实现
  - 1.5 结论
- 二、Attention is All You Need
- - 2.0 摘要
  - 2.1 结论
  - 2.2 导论
  - 2.3 背景
  - 2.4 模型架构
  - - 2.4.1 编码器和解码器
    - 2.4.2 注意力机制
    - - 2.4.2.1 缩放的点积注意力（Scaled Dot-Product Attention）
      - 2.4.2.2 多头注意力
      - 2.4.2.3 注意力在模型中的应用
    - 2.4.3 基于位置的前馈神经网络（Position-wise Feed-Forward Networks）
    - 2.4.4 词嵌入和Softmax
    - 2.4.5 位置编码（Positional Encoding）
  - 2.5 为什么使用自注意力机制
  - 2.6 实验（可以跳过）
  - - 2.6.1训练数据和批处理
    - 2.6.2 硬件和时间
    - 2.6.3 优化器
    - 2.6.4 正则化
    - 2.6.5 模型配置
  - 2.7 评价
- 三、GAN论文精读
- - 3.0 前言&摘要
  - 1.1 导论
  - 3.2 相关工作
  - 3.3 对抗网络（目标函数及其求解）
  - - 3.3.1 目标函数
    - 3.3.2 迭代求解过程
  - 3.4 理论结果
  - - 3.4.1 全局最优解 $p_g=p_{data}$
    - 3.4.2 收敛证明
  - 3.5 GAN的优势与缺陷
  - 3.6 代码实现（paddle/pytorch）
  - 3.7 总结
- 四、BERT
- - 4.0 摘要
  - 4.1 导论
  - 4.2 结论
  - 4.3 相关工作
  - - 4.3.1 基于特征的无监督方法
    - 4.3.2 无监督的微调方法
    - 4.3.3 监督数据中的迁移学习
  - 4.4 BERT
  - - 4.4.1 模型结构&输入输出
    - 4.4.2 BERT预训练（MLM+NSP）
    - 4.4.3 BERT微调
  - 4.5 实验
  - - 4.5.1 GLUE数据集（分类）
    - 4.5.2 SQuAD v1.1（问答）
    - 4.5.3 SQuAD v2.0（问答）
    - 4.5.4 SWAG（句子对任务）
  - 4.6消融试验
  - - 4.6.1 模型各部分的影响
    - 4.6.2 模型配置的影响
    - 4.6.3 特征提取
  - 4.7 总结

一、 ResNet

论文地址：Deep Residual Learning for Image Recognition
参考：bilibili视频《撑起计算机视觉半边天的ResNet【论文精读】》、动手深度学习《残差网络ResNet》、
博文《ResNet论文笔记》、《ResNet网络结构详解与模型的搭建》

1.0 摘要，论文导读

摘要主要内容：
深度神经网络很难训练，我们使用residual（残差结构）使得网络训练比之前容易很多在ImageNet上使用了152层的ResNet，比VGG多8倍，但是计算复杂度更低，最终赢下了ImageNet2015的分类任务第一名，并演示了如何在cifar-10上训练100-1000层的网络。（通常赢下ImageNet比赛且提出很不一样网络架构、方法的文章会被追捧。）
对很多任务来说，深度是非常重要的。我们仅仅是把之前的网络换成残差网络，在coco数据集上就得到了28%的改进。同样也赢下了ImageNet目标检测、coco目标检测和coco segmentation的第一名。

主要图表：

上面这张图是没有使用残差结构的网络，更深的层训练误差比浅层更高，即深层网络其实是训练不动的。下面这张图，是是否使用resnet结构的网络效果对比图。可以看到右侧使用残差结构后，34层的网络训练和测试的误差都更低。

			plain 	ResNet
18 layers 	27.94 	27.88
34 layers 	28.54 	25.03

后面还会有不同结构的resnet网络和VGG等其他网络的效果对比图。

1.1 导论

1.1.1 为什么提出残差结构？

深度卷积神经网络是非常有效的，因为可以堆叠很多层，不同层可以表示不同level的特征。但是学一个好的网络，就是简简单单的把所有网络堆在一起就行了吗？如果这样，网络做深就行了。
我们知道，网络很深的时候，容易出现梯度消失或者梯度爆炸，解决办法之一是一个好的网络权重初始化，使权重不能太大也不能太小；二是加入一些normalization，比如BN。这样可以校验每个词之间的输出，以及梯度的均值和方差，这样比较深的网络是可以训练的（可以收敛）。但同时有一个问题是，深层网络性能会变差，也就是精度会变差。
深层网络性能变差，不是因为网络层数多、模型变复杂而过拟合，因为训练误差也变高了。那为什么会这样呢？从理论上来说，往一个浅层网络中加入一些层，得到一个深一些的网络，后者的精度至少不应该变差。因为后者至少可以学成新加的层是identity mapping，而其它层直接从前者复制过来。但是实际上做不到，SGD优化器无法找到这个比较优的解。

identity mapping可以理解成恒等映射吧，也就是网络输入x，输出也是x。网络权重简单学成输入特征的1/n。

所以作者提出，显式地构造一个identity mapping，使得深层模型的精度至少不会变得更差。作者将其称为deep residual learning framework。
假设我们要学的是 $H (x)$ ，在原有层上添加一些新的层时，新的层不是直接学 $H (x)$ ，而是学习 $H (x) - x$ ，这部分用 $F (x)$ 表示。（其中， $x$ 是原有层的输出。）即，新加入的层不用全部重新学习，而是学习原来已经学习到的 $x$ 和真实的 $H (x)$ 之间的残差就行。最后模型的输出是 $F (x) + x$ 。这种新加入的层就是residual，结构如下图所示：

$F (x) + x$ 在数学上就是直接相加，在神经网络中是通过‘shortcut connections’实现（shortcut就是跳过一个或多个层，将输入直接加到这些跳过的层的输出上）。shortcut其实做的是一个identity mapping（恒等映射），而且这个操作不需要学习任何参数，不增加模型的复杂度。就多了一个加法，也不增加计算量，网络结构基本不变，可以正常训练。

1.1.2 实验验证

接下来作者在imagenet上做了一系列实验进行验证。结果表明，加了残差的网络容易优化，而且网络堆的更深之后，精度也会提高，所以赢下了比赛。在cifar-10上，作者尝试了训练超过1000层的网络。至此，论文的核心就讲完了，下面就是ResNet网络的设计。

1.2 相关工作

其实ResNet不是第一个提出residual的。最早的线性模型的解法，就是通过不断迭代residual来求解的，而且在机器学习中，GBDT中，就是通过残差residual来不断学习的，把弱分类器叠加起来，成为一个强的分类器。只不过GBDT是在label上做残差，ResNet是在特征上做残差。
ResNet也不是第一个提出shortcut的，比如在highway networks中就有用到shortcut，但不是直接做加法，而是更复杂一些。
一篇文章之所以是经典，不一定是原创的提出很多东西，而有可能是把很多东西很巧妙的放在一起，能很好地解决问题；甚至大家都不记得之前谁还做过类似的工作。所以很多想法前人大多就想过了发表了，但是没关系，可以是用同一个东西解决新的问题，旧的技术有新的应用新的意义。

ResNet34比起VGG19，计算复杂度更低，只有前者的18%。其它是一些训练的细节，学习率优化器等等之类，就不细讲了。

1.3 实验部分

1.3.1 不同配置的ResNet结构

网络输入是ImageNet图片，短边在[256,480]中随机选取，然后resize到224×224尺寸，输入网络
conv2_x：表示第二个卷积模块，x表示模块里有很多层。
$\begin{bmatrix} 3\times 3 ,64\\ 3\times 3 ,64 \end{bmatrix}\times 3$ ：[]内的是一个残差块，其卷积核大小为3*3，channel=64。×3表示有两个这样的残差层。

对照下面ResNet34结构图：（3+4+6+3）=16个残差模块，每个模块两层卷积层。再加上第一个7×7卷积层和最后一个全连接层，一共是34层。

1.3.2 残差结构效果对比

从下图可以看到有残差模块，网络收敛会更快，而且精度会更好。

1.3.3 残差结构中，输入输出维度不一致如何处理

A. pad补0，使维度一致；
B. 维度不一致的时候，使其映射到统一维度，比如使用全连接或者是CNN中的1×1卷积（输出通道是输入的两倍）。
C. 不管输入输出维度是否一致，都进行投影映射。
下面作者对这三种操作进行效果验证。从下面结果可以看到，B和C效果差不多，都比A好。但是做映射会增加很多复杂度，考虑到ResNet中大部分情况输入输出维度是一样的（也就是4个模块衔接时通道数会变），作者最后采用了方案B。

1.3.4 深层ResNet引入瓶颈结构Bottleneck

在ResNet-50及以上的结构中，模型更深了，可以学习更多的参数，所以通道数也要变大。比如前面模型配置表中，ResNet-50/101/152的第一个残差模块输出都是256维，增加了4倍。
如果残差结构还是和之前一样，计算量就增加的太多了（增加16倍），划不来。所以重新设计了Bottleneck结构，将输入从256维降为64维，然后经过一个3×3卷积，再升维回256维。这样操作之后，复杂度和左侧图是差不多的。这也是为啥ResNet-50对比ResNet-34理论计算量变化不大的原因。（实际上1×1卷积计算效率不高，所以ResNet-50计算还是要贵一些）

1.4 代码实现

resnet中残差块有两种：（use_1x1conv=True/False）

步幅为2 ，高宽减半，通道数增加。所以shortcut连接部分会加一个1×1卷积层改变通道数
步幅为1，高宽不变

残差块代码实现：

import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

class Residual(nn.Module):  #@save
    def __init__(self, input_channels, num_channels,
                 use_1x1conv=False, strides=1):
        super().__init__()
        self.conv1 = nn.Conv2d(input_channels, num_channels,
                               kernel_size=3, padding=1, stride=strides)
        self.conv2 = nn.Conv2d(num_channels, num_channels,
                               kernel_size=3, padding=1)
        if use_1x1conv:
            self.conv3 = nn.Conv2d(input_channels, num_channels,
                                   kernel_size=1, stride=strides)
        else:
            self.conv3 = None
        self.bn1 = nn.BatchNorm2d(num_channels)
        self.bn2 = nn.BatchNorm2d(num_channels)#每个bn都有自己的参数要学习，所以需要定义两个

    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))
        Y = self.bn2(self.conv2(Y))
        if self.conv3:
            X = self.conv3(X)
        Y += X
        return F.relu(Y)

resnet18：类似VGG和GoogLeNet，但是替换了resnet块。一般用resnet34或者50，很少上100，除非刷榜。

Resnet18代码：

b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
                   nn.BatchNorm2d(64), nn.ReLU(),
                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

def resnet_block(input_channels, num_channels, num_residuals,
                 first_block=False):
    blk = []
    for i in range(num_residuals):
        if i == 0 and not first_block:
            blk.append(Residual(input_channels, num_channels,
                                use_1x1conv=True, strides=2))
        else:
            blk.append(Residual(num_channels, num_channels))
    return blk

b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))#resnet_block是一个列表，*表示全部展开

net = nn.Sequential(b1, b2, b3, b4, b5,
                    nn.AdaptiveAvgPool2d((1,1)),
                    nn.Flatten(), nn.Linear(512, 10))

1.5 结论

ResNet就是在CNN主干上加了残差连接，这样如果新加的层训练效果不好的话，至少可以fallback变回简单模型，所以精度不会变差。
在现在来看，ResNet训练的比较快，是因为梯度保持的比较好。因为新加的层容易导致梯度消失（或者梯度爆炸），但是加了残差连接，梯度多了一部分，包含了之前层的梯度，这样不管加了多深，梯度会保持的比较大（主要是不会梯度消失，学不动），不会太快收敛，SGD跑得多就训练的比较好。（SGD的精髓就是，只要梯度比较大，就可以一直训练。反正有噪音，慢慢的总是会收敛，最后效果就会比较好）

为什么在cifar-10这样一个小的数据集上（32*32图片5w张）训练1202层的网络，过拟合也不是很厉害。为何transformer那些模型几千亿的参数不会过拟合，李沐认为是加了残差连接之后，模型内在复杂度大大降低了。（理论上模型加一些层，模型也至少可以将后面的层学成恒等映射，使精度不会变差。但实际上没有引导做不到这一点。所以本文才会显示的把残差结构加进去，使模型能够更容易的训练出来。比如后面层都是0，前面一些层才学到东西，也就是更容易训练出一个简单模型来拟合数据，所以加入残差连接等于是模型复杂度降低了）

二、Attention is All You Need

参考：论文地址《Attention is All You Need》、bilibili视频《Transformer论文逐段精读【论文精读】》
论文翻译《论文阅读：Attention Is All You Need【注意力机制】》

2.0 摘要

主流的序列转换模型都是基于复杂的循环或卷积神经网络，这个模型包含一个编码器和一个解码器。具有最好性能的模型在编码和解码之间通过一个注意力机制链接编解码器。我们提出了一个新的简单网络结构——Transformer，其仅仅是基于注意力机制，而完全不需要之前的循环或卷积。在两个机器翻译任务上的实验表明，该模型具有更好的性能，同时并行度更好，并且训练时间更少。（泛化到其它任务效果也不错）

在WMT 2014英语到德语翻译任务上，我们的模型达到了28.4BLEU，比之前最好的结果提高了2BLEU。在WMT 2014英语到法语翻译任务上，我们的模型在8个GPU上训练3.5天后，所得到的单个模型获得了41.8BLEU分数。我们在大型和有限的训练数据中，通过将其成功应用于英语句法解析，表明了Transformer可以很好地适用于其他任务。

可以看到这篇文章最开始只是针对机器翻译来写的，transformer在机器翻译上效果也很好。但是随着bert、GPT等把这种架构用在更多的NLP任务上，甚至后面CV和video等也可以使用注意力机制，整个工作就火出圈了。

2.1 结论

本文介绍了Transformer，这是第一个完全基于注意力的序列转换模型，用多头自注意力（multi-headed self-attention）代替了 encoder-decoder 架构中最常用的循环层。

对于翻译任务，Transformer可以比基于循环或卷积层的体系结构训练更快。在WMT 2014 English-to-German和and WMT 2014 English-to-French翻译任务中，我们取得了最好的结果。在前面的任务中，我们最好的模型甚至胜过以前发表过的所有整合模型。

我们对基于注意力的模型的未来感到兴奋，并计划将Transformer应用于文本之外的涉及输入和输出模式的问题中任务，以有效处理大型输入&输出任务，如图像、音频和视频等。让生成不那么时序化是我们的另一个研究目标。
我们用于训练和评估模型的代码可以在https://github.com/tensorflow/tensor2tensor上获得。

2.2 导论

序列建模和转换问题（如机器翻译）最新方法是LSTM和GRN等。后面许多研究都围绕循环语言模型和编码器-解码器体系结构进行。
循环网络模型通常是考虑了输入和输出序列的中字符位置的计算。当前时刻隐藏状态ht，是由上一时刻隐藏状态ht−1和 t时刻输入共同决定的。（把之前的信息都放在隐藏状态里，一个个传递下去，是RNN处理时序信息的关键）。这种固有的时序模型难以并行化处理，计算性能就很差。这些年做了一些并行化改进，但是问题依然存在。

另外还存在长距离衰减问题，解码阶段，越靠后的内容，翻译效果越差。除非你把ht维度设置的很高，可以把每一个时间步的信息都存下来。但这样会造成内存开销很大。

attention在此之前，已经成功的应用在encoder-decoder 架构中，但主要是用在如何把编码器的信息有效的传递给解码器，所以是和RNN一起使用的。
本文提出的Transformer，不再使用循环神经层，而是纯基于注意力机制，来构造输入和输出之间的全局依赖关系。Transformer可以进行更多的并行化，训练时间更短但翻译效果更好。

2.3 背景

使用卷积神经网络替换循环神经网络，并行计算所有输入和输出位置的隐藏表示，是扩展神经GPU，ByteNet和ConvS2S的基础，因为这样可以减少时序计算。但是CNN对长序列难以建模（因为卷积计算时，卷积核/感受野比较小，如果序列很长，需要使用多层卷积才可以将两个比较远的位置关联起来）。但是使用Transformer的注意力机制的话，每次（一层）就能看到序列中所有的位置，就不存在这个问题。

关联来自两个任意输入或输出位置的数据所需的操作数量，随着距离增长，对于ConvS2S呈线性，对于ByteNet呈对数，而对于Transformer是常数，因为一次就看到了。

但是卷积的好处是，输出可以有多个通道，每个通道可以认为是识别不同的模式，作者也想得到这种多通道输出的效果，所以提出了Multi-Head Attention多头注意力机制。（模拟卷积多通道输出效果）

Self-attention，有时称为intra-attention，是一种关联单个序列的不同位置以计算序列表示的关联机制。在此之前已成功用于多种任务。但据我们所知，Transformer是第一个完全依靠self-attention，而不使用卷积或循环的的encoder-decoder 转换模型。

2.4 模型架构

大部分神经序列转换模型都使用encoder-decoder 结构 (引用)。编码器把一个输入序列 $x_{1},...x_{n})$ 映射到一个连续的表示 $z=(z_{1},...z_{n})$ 中。解码器对z中的每个元素，生成输出序列 $y_{1},...y_{m})$ ，一个时间步生成一个元素。在每一步中，模型都是自回归的（auto-regressive）(引用)，在生成下一个结果时，会将先前生成的结果加入输入序列来一起预测。（自回归模型的特点，过去时刻的输出可以作为当前时刻的输入）

编码器和解码器序列可以不一样长，且编码器可以一次看到整个序列，但是解码器是一步步输出的。

Transformer 遵循这种整体架构，对编码器和解码器使用堆叠的自注意力和逐点全连接层，分别如下图的左半部分和右半部分所示。

图画得好，一张图能搞定所有东西，所以画图是一个基础技能。

Outputs（shifted right）：解码器在 $t_0$ 时刻其实是没有输入的，其输入是编码器的输出，所以这里写的是output，shifted right就是逐个右移的意思。

Nx：模块堆叠N次

2.4.1 编码器和解码器

代码可以参考《《The Annotated Transformer》翻译——注释和代码实现《Attention Is All You Need》》
编码器：编码器由N=6个相同encoder层堆栈组成。每层有两个子层。

multi-head self-attention
FFNN层（前馈神经网络层，Feed Forward Neural Network），其实就是MLP，为了fancy一点，就把名字起的很长。

两个子层都使用残差连接(residual connection)，然后进行层归一化（layer normalization）。
每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x)是当前子层的输出。
为了简单起见，模型中的所有子层以及嵌入层的向量维度都是 $d_{\text{model}}=512$ （如果输入输出维度不一样，残差连接就需要做投影，将其映射到统一维度）。（这和之前的CNN或MLP做法是不一样的，之前都会进行一些下采样）

这种各层统一维度使得模型比较简单，只有N和 $d_{\text{model}}$ 两个参数需要调。这个也影响到后面一系列网络，比如bert和GPT等等。

解码器：解码器同样由 N=6个相同的decoder层堆栈组成，每个层有三个子层。

Masked multi-head self-attention：在解码器里，Self Attention 层只允许关注到输出序列中早于当前位置之前的单词。具体做法是：在 Self Attention 分数经过 Softmax 层之前，使用attention mask，屏蔽当前位置之后的那些位置。所以叫Masked multi-head self Attention。（对应masked位置使用一个很大的负数-inf，使得softmax之后其对应值为0）
Encoder-Decoder Attention ：编码器输出最终向量，将会输入到每个解码器的Encoder-Decoder Attention层，用来帮解码器把注意力集中中输入序列的合适位置。
FFNN

与编码器类似，每个子层都使用残差连接，然后进行层归一化。假设一个 Transformer 是由 2 层编码器和两层解码器组成的，如下图所示：

为什么这里使用LN而不是BN？

Batch Normalization：在特征d/通道维度做归一化，即归一化不同样本的同一特征。缺点是：

计算变长序列时，变长序列后面会pad 0，这些pad部分是没有意义的，这样进行特征维度做归一化缺少实际意义。

序列长度变化大时，计算出来的均值和方差抖动很大。

预测时使用训练时记录下来的全局均值和方差。如果预测时新样本特别长，超过训练时的长度，那么超过部分是没有记录的均值和方差的，预测会出现问题。

Layer Normalization：在样本b维度进行归一化，即归一化一个样本所有特征。

NLP任务中一个序列的所有token都是同一语义空间，进行LN归一化有实际意义

因为实是在每个样本内做的，序列变长时相比BN，计算的数值更稳定。

不需要存一个全局的均值和方差，预测样本长度不影响最终结果。

为什么MLP Block先升维再降维？
神经网络中线性连接可以写成 $d^l=W^{l}\cdot x$ 。其中三者维度分别是m×1、m×n、n×1。

m>n：升维，将特征进行各种类型的特征组合，提高模型分辨能力

m

2.4.2 注意力机制

attention函数可以被描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出被计算为value的加权求和，所以输出和value的维度一致。每个value的权重由query与对应key计算所得。（不同注意力机制有不同的算法）

2.4.2.1 缩放的点积注意力（Scaled Dot-Product Attention）

缩放的点积注意力：

其输入为query、key(维度是 $d_k$ )以及values(维度是 $d_v$ )。
计算query和所有key的点积，得到两个向量的相似度（结果越大相似度越高）；然后对每个点积结果除以 $\sqrt{d_k}$ ,
点积结果输入softmax函数获得value的权重。
最后对value进行加权求和

在实践中，我们同时计算一组query的attention函数，并将它们组合成一个矩阵 $Q$ 。key和value也一起组成矩阵 $K$ 和 $V$ 。我们计算的输出矩阵为：

$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}(\frac{QK^T}{\sqrt{d_k}})V$

K、V 矩阵的序列长度是一样的（加权求和），而 Q 矩阵的序列长度可以和前两者不一样；这种情况发生在：解码器部分的Encoder-Decoder Attention层中，Q 矩阵是来自解码器输出tgt，而 K、V 矩阵则是来自编码器最后的输出memory。即tgt2 = self.multihead_attn(tgt, memory, memory, attn_mask=memory_mask,key_padding_mask=memory_key_padding_mask)[0]
但是Q和K的维度必须一样，因为要计算点积。

有两个最常用的attention函数：

加法attention(cite): $s=A^{T}Tanh（qW+kU)$ ，使用具有单个隐层的前馈网络计算，q和k维度不一致也可以进行；
上面提到的点积（乘法）attention

除了缩放因子 $\frac{1}{\sqrt{d_k}}$ 之外，点积Attention跟我们的算法一样（所以作者的注意力叫缩放点积注意力）。虽然理论上点积attention和加法attention复杂度相似，但在实践中，点积attention可以使用高度优化的矩阵乘法来实现，因此点积attention计算更快、更节省空间。
当dk的值比较小的时候，这两个机制的性能相差相近，当dk比较大时，加法attention比不带缩放的点积attention性能好。我们怀疑，维度dk很大时，点积结果也变得很大，将softmax函数推向具有极小梯度的区域。为了抵消这种影响，我们将点积缩小 $\frac{1}{\sqrt{d_k}}$ 倍。

2.4.2.2 多头注意力

$\mathrm{MultiHead}(Q, K, V) = \mathrm{Concat}(\mathrm{head_1}, ..., \mathrm{head_h})W^O \\ \text{where}~\mathrm{head_i} = \mathrm{Attention}(QW^Q_i, KW^K_i, VW^V_i)$
其中映射由权重矩阵完成： $W^Q_i \in \mathbb{R}^{d_{\text{model}} \times d_k}$ , $W^K_i \in \mathbb{R}^{d_{\text{model}} \times d_k}$ , $W^V_i \in \mathbb{R}^{d_{\text{model}} \times d_v}$ and $W^O \in \mathbb{R}^{hd_v \times d_{\text{model}}}$ 。
我们采用 $h = 8$ 个平行attention层或者叫head。对于这些head中的每一个，我们使用 $d_k=d_v=d_{\text{model}}/h=64$ ，总计算成本与具有全部维度的单个head attention相似。

输入 X 和8组权重矩阵 $W^Q$ , $W^K$ $W^V$ 相乘，得到 8 组 Q, K, V 矩阵。进行attention计算，得到 8 组 Z 矩阵（假设head=8）
把8组矩阵拼接起来，乘以权重矩阵 $W^O$ ，将其映射回 d 维向量（相当于多维特征进行汇聚），得到最终的矩阵 Z。这个矩阵包含了所有 attention heads（注意力头）的信息。
矩阵Z会输入到 FFNN层。（前馈神经网络层接收的也是 1 个矩阵，而不是8个。其中每行的向量表示一个词）

使用多头自注意力的好处：

多语义匹配：本身缩放点积注意力是没什么参数可以学习的，就是计算点积、softmax、加权和而已。但是使用Multi-head attention之后，投影到低维的权重矩阵 $W^Q$ , $W^K$ , $W^V$ 是可以学习的，而且有h=8次学习机会。使得模型可以在不同语义空间下学到不同的的语义表示，也扩展了模型关注不同位置的能力。类似卷积中多通道的感觉。
例如,“小明养了一只猫,它特别调皮可爱,他非常喜欢它”。“猫”从指代的角度看,与“它”的匹配度最高,但从属性的角度看,与“调皮”“可爱”的匹配度最高。标准的 Attention 模型无法处理这种多语义的情况。

注意力结果互斥：自注意力结果需要经过softmax归一化,导致自注意力结果之间是互斥的,无法同时关注多个输人。使用多组自注意力模型产生多组不同的注意力结果，则不同组注意力模型可能关注到不同的输入，从而增强模型的表达能力。

2.4.2.3 注意力在模型中的应用

Transformer中用3种不同的方式使用multi-head attention：

encoder-decoder attention层中，query来自前面的decoder层，而keys和values来自encoder的输出memory。这使得decoder中的每个位置都能关注到输入序列中的所有位置。这是模仿序列到序列模型（Seq2Seq）中典型的编码器—解码器的attention机制，例如 (cite)。

encoder-decoder attention层可以使解码器在每个时间步，把注意力集中到输入序列中感兴趣的位置。比如英译中‘hello world’，解码器在输出‘你’的时候，解码器的输入q对’hello’的相似度应该是最高的，这样模型就将注意力主要集中在’hello’上，即生成单词时更关注源语言序列中更相关的词。（这就是attention如何在encoder传递信息到decoder时起到作用）

encoder包含self-attention层。在self-attention层中，所有key，value和query来自同一个地方，即encoder中前一层的输出。在这种情况下，encoder中的每个位置都可以关注到encoder上一层的所有位置。
decoder中的masked-self-attention层允许decoder中的每个位置都关注decoder层中当前位置之前的所有位置（包括当前位置）。为了保持解码器的自回归特性，需要防止解码器中的信息向左流动。我们在缩放点积attention的内部，通过屏蔽softmax输入中所有的非法连接值（设置为 $-\infty$ ）实现了这一点。

2.4.3 基于位置的前馈神经网络（Position-wise Feed-Forward Networks）

编码器和解码器中的每个层都包含一个全连接的前馈网络，该前馈网络分别且相同地应用于每个位置。该前馈网络包括两个线性变换，并在两个线性变换中间有一个ReLU激活函数。
$\mathrm{FFN}(x)=\max(0, xW_1 + b_1) W_2 + b_2$
Position就是序列中每个token，Position-wise 就是把MLP对每个token作用一次，且作用的是同一个MLP。说白了就是MLP只作用于最后一个维度d=512。
因为前面的attention层以及抓取了输入序列的相关信息，并做了一次汇聚（拼接后W映射回d维）。所以attention层结果已经有了序列中我感兴趣的信息，所以后面在做MLP投影映射到想要的语义空间时，只需要对每个position（token）单独做MLP就行。
从attention抽取序列信息到MLP映射到需要的语义空间（非线性变换），就整个是transformer的处理信息的基础过程。

尽管两层都是线性变换，但它们在层与层之间使用不同的参数。另一种描述方式是两个内核大小为1的卷积。输入和输出的维度都是 $d_{\text{model}}=512$ , 内层维度是 $d_{ff}=2048$ 。（也就是第一层输入512维,输出2048维；第二层输入2048维，输出512维）

对比transformer和RNN，发现两者都是使用MLP来进行语义空间的转换，但区别是二者传递信息的方式不一样：（大概画了个示意图，见谅）

RNN是把上一时刻信息作为输入（和t时刻输入一起），传递给当前时刻，并用MLP做语义转换。
Transformer是通过attention层直接关联到全局的序列信息，然后用MLP做语义转换。

2.4.4 词嵌入和Softmax

我们使用学习到的embedding将输入token和输出token转换为 $d_{\text{model}}$ 维的向量。我们还使用普通的线性变换和softmax函数将解码器输出转换为预测的下一个token的概率。在我们的模型中，输入输出两个嵌入层，和pre-softmax线性变换共享相同的权重矩阵（这样训练起来简单一些）。最后我们将这些权重乘以 $\sqrt{d_{\text{model}}}$ （比如512）。

这是因为一般会把一个向量的L2Norm学到接近1，这样向量维度越大，这样学到的权重值就会很小。但是位置编码是不会这样学成L2Norm（L2范数）接近1的。所以把权重乘上 $\sqrt{d_{\text{model}}}$ 之后，token embedding和位置编码Positional Encoding才接近统一量级。（都在-1到1之间）

2.4.5 位置编码（Positional Encoding）

Attention计算时本身是不考虑位置信息的，这样序列顺序变化结果也是一样的。所以我们必须在序列中加入关于词符相对或者绝对位置的一些信息。
为此，我们将“位置编码”添加到token embedding中。二者维度相同（例如 $\sqrt{d_{\text{model}}}$ =512），所以可以相加。有多种位置编码可以选择，例如通过学习得到的位置编码和固定的位置编码。
在这项工作中，我们使用不同频率的正弦和余弦函数： $PE_{(pos,2i)} = sin(pos / 10000^{2i/d_{\text{model}}})$
$PE_{(pos,2i+1)} = cos(pos / 10000^{2i/d_{\text{model}}})$
其中 $p os$ 是位置， $i$ 是维度。也就是说，位置编码的每个维度对应于一个正弦曲线。这些波长形成一个从 $2\pi$ 到 $10000 \cdot 2\pi$ 的集合级数。我们选择这个函数是因为我们假设它会让模型很容易学习对相对位置的关注，因为对任意确定的偏移 $k$ , $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。最终编码向量每个元素值都是在-1到1之间。

此外，我们会将编码器和解码器堆栈中的embedding和位置编码的和再加一个dropout。对于基本模型，我们使用的dropout比例是 $P_{drop}=0.1$ 。

2.5 为什么使用自注意力机制

本节，我们比较self-attention与循环层和卷积层的各个方面，我们使用self-attention是考虑到解决三个问题。

每层计算的总复杂度，越少越好
顺序计算量，越少代表并行度越高。（顺序计算量就是下一步需要前面多少步计算完成）
网络中长距离依赖之间的路径长度
影响长距离依赖性能力的一个关键因素是前向和后向信号在网络中传播的路径长度。输入和输出序列中任意位置之间的这些路径越短，学习长距离依赖性就越容易。因此，我们还比较了由不同图层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

上图n是序列长度，d是token维度。

Attention：
- 计算复杂度：矩阵Q*K，两个矩阵都是n行d列，所以相乘时复杂度是 $O(n^2\cdot d)$ ，其它还有一些计算量但影响不大；
- 顺序计算量：矩阵里面并行度是很高的，整个计算主要就是矩阵乘法，所以可以认为顺序计算量就是 $O (1)$ ；
- 最大路径长度：也就是从一个点关联到任何一个点的路径长度。attention是一次看到整个序列，所以只需要一次操作，复杂度为 $O (1)$

其它的暂时不写了。k就是卷积核大小，一般是3、5之类的；而n和d现在的模型都是做到几百几千，所以可以认为前三种操作，计算复杂度差不多，但是并行度是attention和卷积更好；且attention在信息的融合上更好（最大路径长度=1）。

实际上attention对模型的假设更少，导致模型需要更多的数据和更大的模型才能训练到和RNN或CNN差不多的效果。所以现在基于transformer的模型都是很大，训练起来很贵。

2.6 实验（可以跳过）

2.6.1训练数据和批处理

我们在标准的WMT 2014 English-German dataset上进行了训练，其中包含约450万个句子对。这些句子使用byte-pair编码进行编码，源语句和目标语句共享大约37000个词符的词汇表。对于英语-法语翻译，我们使用大得多的WMT 2014 English-French dataset，它包含3600万个句子，并将词符分成32000个word-piece词汇表。序列长度相近的句子一起进行批处理。每个训练批处理的句子对包含大约25000个源词符和25000个目标词符。

bpe编码，是因为英语/德语中有很多ing之类的词根，又或者一个动词有几种形式。如果直接使用token进行表示，词表就太大了。bpe就可以把词根提取出来，这样词表会小很多，而且还能表示不同时态等等这些相关信息。
共用词表可以使编码器和解码器共用一个embedding，权重共享，模型更简单。

2.6.2 硬件和时间

我们在一台具有8个NVIDIA P100 GPU的机器上训练我们的模型。使用本文描述的超参数的基础模型，每个训练步骤耗时约0.4秒。我们的基础模型共训练了10万步或12小时。对于我们的大型模型（在表3的底部描述），步长为1.0秒。大型模型接受了30万步（3.5天）的训练。

因为TPU非常适合做很大的矩阵乘法，所以后面Google都推荐自己的员工多使用TPU

2.6.3 优化器

我们使用Adam优化器(cite)，其中 $\beta_1=0.9$ , $\beta_2=0.98$ 并且 $\epsilon=10^{-9}$ 。我们根据以下公式在训练过程中改变学习率：
$d_{\text{model}}^{-0.5} \cdot \min({step\_num}^{-0.5}, {step\_num} \cdot {warmup\_steps}^{-1.5})$
这对应于在第一次 $warmup\_steps$ 步中线性地增加学习速率，并且随后将其与步数的平方根成比例地减小。我们使用 $warmup\_steps=4000$ 。

2.6.4 正则化

训练期间我们采用两种正则化：

Residual Dropout
我们将dropout应用到每个子层的输出，在子层输出进入残差连接之前，和LayerNorm之前，都使用dropout。此外，在编码器和解码器中，token embedding+Positional Encoding时也使用了dropout。对于base模型，我们使用drop概率为 0.1。
Label Smoothing
在训练过程中，我们使用的label smoothing的值为ϵls= 0.1。这让模型不易理解，因为模型学得更加不确定，但提高了准确性和BLEU得分。（softmax要逼近于1，其输入几乎要无穷大，这是很不合理的，会使模型训练困难）

2.6.5 模型配置

可以看到模型虽然比较复杂，但是没有多少超参数可以调，使得后面的人工作简单很多。

2.7 评价

Transformer（attention机制）几乎能用在所有NLP任务上，类CNN对整个CV领域的革新（不需要那么多的特征提取或者模型建模，学会CNN就行了）。Transformer也是一样，不需要那么多的文本预处理，不需要为每个任务设计不同的架构。
而且现在transformer在CV、语音、video等领域也广泛使用，等于一个架构可以适用所有领域，任何一点突破在别的领域都能被使用，减少技术的应用时间。而且Transformer可以融合多模态的数据（文字、图片、语音等），大家都要同一个架构提取特征的话，可以都抽取到同一个语义空间，使得我们可以用文字、图片、语音等训练更大更好的模型。
虽然Transformer效果这么好，但是对它的理解还在初级阶段。

最新的一些结果表明，attention在里面只是起到一个聚合序列信息的作用，但是后面的MLP/残差连接是缺一不可的，如果去掉的话，模型是基本训练不出什么的
Attention不会对序列的顺序建模，为何能打败RNN？RNN可以显式地建模序列信息，不是应该比attention更好。现在大家觉得attention使用了更广泛的归纳偏置，使得他能处理更一般化的信息；这也是attention没有做空间上的假设吗，但是比CNN/RNN能做到更好的效果。代价就是假设更一般，所以抓取数据信息能力变差，必须使用更大的模型和更多的数据才能训练到一个比较好的效果。

期待未来有更多新的架构。

三、GAN论文精读

论文地址：《Generative Adversarial Networks》、bilibili视频《GAN论文逐段精读【论文精读】》

3.0 前言&摘要

过去5年，在reddit的MachineLearning板块，冲上头条最多的是GAN的应用，比如生成名人小时候的照片：

《VToonify: Controllable High-Resolution Portrait Video Style Transfer》：

《stablediffusion-infinity: Outpainting with Stable Diffusion on an infinite canvas》画布扩散输出：

《Stable Diffusion web ui + IMG2IMG + After Effects + artist workflow》文生图模型：

还有一个专门的网址：thispersondoesnotexist.com，上面都是一些生成的高清人脸图。
GAN技术这么强大，以至于加州政府在2019年出台法令，一是禁止成人行业在未经本人同意时，将其人脸用在别人身上；二是禁止使用政治人物的人脸，让其说一段以前没有说过的话。

摘要
我们提出了一个新的framework，从对抗训练中估计一个生成模型。GAN有两个网络：生成器神经网络G（Generator Neural Network）和判别器神经网络D（Discriminator Neural Network）。
生成器G希望从数据的真实分布中采样到一种分布（用于生成数据）。D用于判别样本是真实样本还是G生成的样本。
生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D，使D犯错；而D的目标就是尽量把G生成的图片和真实的图片分别开来。二者互相博弈，最终的结果是D(G(z)) = 0.5。

GAN就是对分布进行建模，希望模型可以生成各种分布。最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

1.1 导论

深度学习是用来发现一些丰富的、有层次的模型，这些模型能够对AI里的各种数据做一个概率分布的表示。深度学习网络只是一种手段而已。

深度学习不仅是学习网络，更是对数据分布的一种表示。这和统计学习方法里面的观点不谋而合，后者认为机器学习模型从概率论的角度讲，就是一个概率分布 $P_{\theta }(X)$ (这里以概率密度函数来代表概率分布)
机器学习的任务就是求最优参数 $\theta_{t}$ ,使得概率分布 $P_{\theta }(X)$ 最大(即已发生的事实，其对应的概率理应最大）。
$\theta_{t} =\underset{\theta}{argmax}P_{\theta }X$
argmax 函数代表的是取参数使得数据的概率密度最大。求解最优参数 $\theta_{t}$ 的过程,我们称之为模型的训练过程( Training )

深度学习在判别模型上取得了很好的效果，但是在生成模型上比较差。难点在于最大化似然函数时，要对概率分布做很多近似，近似带来了很大的计算困难。
本文的核心观点就是，不用再去近似似然函数了，可以用更好的办法（GAN）来计算模型。
GAN是一个框架，里面的模型都是MLP。后面是用小偷造假币警察来分辨的一个举例。最后作者说，生成器G这个MLP的输入是随机噪声，通常是高斯分布；然后将其映射到任何一个我们想去拟合的分布。判别器D也是MLP，所以可以通过误差的反向传递来训练，而不需要像使用马尔可夫链这样的算法，对一个分布进行复杂的采样。这样模型就比较简单，计算上有优势。

3.2 相关工作

这篇论文有两个版本，arxiv上是早期版本，相关工作没怎么写。李沐讲的是NeurlPS上的最终版本。

之前的生成模型总是想构造一个分布函数出来，同时这些函数提供了一些参数可以学习。这些参数通过最大化对数似然函数来求解。这样做的缺点是，采样一个分布时，求解参数算起来很难，特别是高维数据。
因为这样计算很困难，所以最近有一些Generative Machines，不再去构造分布函数，而是学习一个模型来近似这个分布。

前者真的是在数学上学习出一个分布，明明白白知道数据是什么分布，里面的均值方差等等到底是什么东西。而GAN就是通过一个模型来近似分布的结果，而不需要构造分布函数。这样计算起来简单，缺点是不知道最终的分布到底是什么样子。

我观察到，对f的期望求导，等价于对f自己求导。这也是为什么通过误差反向传递来对GAN求解。

3.3 对抗网络（目标函数及其求解）

3.3.1 目标函数

GAN最简单的框架就是模型都是MLP。

生成器G是要在数据x上学习一个分布 $p_g(x)$ ，其输入是定义在一个先验噪声z上面，z的分布为 $p_z (z)$ 。生成模型G的任务就是用MLP把z映射成x。
- 比如图片生成，训练图片是224*224，每个像素是一个随机变量，那么x就是一个50176维的随机变量，变量每个元素都是 $p_g$ 控制的
- 不管最终x如何生成，假设不同的生成图片其实就是那么100来个变量控制的，而MLP理论上可以拟合任何一个函数。那么我们就构造一个100维的向量，MLP强行把z映射成x。所以z可以先验的设定为一个100维向量，其均值为0，方差为1，呈高斯分布。（这样算起来简单）
- 随机设定z为100维向量的缺点，就是MLP并不是真的了解背后的z是如何控制输出的，只是学出来随机选一个比较好的z来近似x，所以最终效果也就一般。
- G的可学习参数是 $G(z;\theta _{g})$
判别器D是输出一个标量（概率），判断其输入是G生成的数据/图片，还是真实的数据/图片。
- D的可学习参数是 $D(x;\theta _{d})$ 。
- 对于D，真实数据label=1，假的数据label=0
两个模型都会训练，
- G的目标是希望生成的图片“越接近真实越好，D(G(z))变大接近1，也就是最小化 $l o g (1 - D (G (z)))$ ，所以记做 $\underset{G}{min}$ 。
- D的目标是最大化 $l o g D (x)$ ，记做 $\underset{D}{max}$
- 所以最终目标函数公式如下所示，E代表期望，X → $P_{data}$ 代表分布为 $P_{data}$ 的真实样本，另一边同理。公式中同时有minmax，所以是对抗训练。

假设x和z都是一维向量，且z是均匀分布，模型训练过程可以表示为：

如上图所示;
虚线点为真实数据分布，蓝色虚线是判别器D的分布，绿色实线为生成器G的分布。初始训练出生成器网络G和判别器网络D；从a到d是我们希望的训练过程。

a. 生成器从均匀分布学成绿色实线表示的高斯分布，这时候判别器还很差；
b. 判别器学成图b所示的分布，可以把真实数据和生成数据区别开来；
c.生成器波峰靠向真实数据波峰，自然就使得判别器难以分辨了；辨别器为了更准，其分布也往真实数据靠拢；
d.最终训练的结果，生成器拟合真实分布，判别器难以分辨，输出概率都为0.5 。

3.3.2 迭代求解过程

下面是具体的算法过程：

k是一个超参数，不能太小也不能太大。要保证判别器D可以足够更新，但也不能更新太好。
- 如果D更新的不够好，那么G训练时在一个判别很差的模型里面更新参数，继续糊弄D意义不大；
- 如果D训练的很完美，那么 $l o g (1 - D (G (z)))$ 趋近于0，求导结果也趋近于0，生成器难以训练
整体来说GAN的收敛是很不稳定的，所以之后有很多工作对其进行改进。
早期G非常弱，所以很容易把D训练的很好，这样就造成刚刚说的G训练不动了。所以作者建议此时，G的目标函数改为最大化 $l o g D (G (z))$ （就算D训练的好，这部分也是有梯度的）。带来的问题是， $logD(G(z))\rightarrow 0$ 的时候，log0是负无穷大，会带来数值上的问题。（后面的工作会对其进行改进）

3.4 理论结果

3.4.1 全局最优解 $p_g=p_{data}$

这部分需要证明目标函数 $\underset{G}{min}\underset{D}{max}V(D,G)$ 有全局最优解，且这个解当且仅当 $p_g=p_{data}$ 时成立，也就是生成器学到的分布等于真实数据的分布。

3.2

具体证明部分可以参考帖子《GAN论文阅读——原始GAN（基本概念及理论推导）》的3.2章节。

固定生成器G，最优的辨别器应该是;（具体证明我也看不懂，就不写了）

*表示最优解
$p_g(x)$ 和 $p_{data}(x)$ 表示x在生成器拟合的分布里面，和真实数据的分布里面，它的概率分别是多少。
当 $p_g(x)=p_{data}(x)$ 时，结果为1/2，表示两个分布完全相同，最优的判别器也无法将其分辨出来。
这个公式的意义是，从两个分布里面分别采样数据，用目标函数 $\underset{G}{min}\underset{D}{max}V(D,G)$ 训练一个二分类器，如果分类器输出的值都是0.5，则可以认为这两个分布是完全重合的。在统计学上，这个叫two sample test，用于判断两块数据是否来自同一分布。

two sample test是一个很实用的技术，比如在一个训练集上训练了一个模型，然后部署到另一个环境，需要看看测试数据的分布和训练数据是不是一样的，就可以像这样训练一个二分类器就行了，避免部署的环境和我们训练的模型不匹配。

把D的最优解代回目标函数，目标函数之和G相关，写作C(G):

现在只需要最小化这一项就行。
证明当且仅当 $p_g=p_{data}$ 时有最优解 $C (G) = - l o g 4$ 。

上式两项可以写成KL散度，即：
又因为JS散度定义为：
所以进一步化简成：
要求 $min C (G)$ ，只有最后一项等于0的时候成立（JS散度≥0），此时 $p_g=p_{data}$ 。

JS散度跟KL散度的区别是前者是对称的， $p_g$ 和 $p_{data}$ 可以互换，而后者不对称。

综上所述，当且仅当生成分布等于真实数据分布式时，我们可以取得最优生成器。

3.4.2 收敛证明

这部分证明了：给定足够的训练数据和正确的环境，在算法1中每一步允许D达到最优解的时候，对G进行下面的迭代：

训练过程将收敛到 $p_g=p_{data}$ ，此时生成器G是最优生成器。

3.5 GAN的优势与缺陷

参考《GAN论文阅读——原始GAN（基本概念及理论推导）》

与其他生成式模型相比较，生成式对抗网络有以下四个优势【OpenAI Ian Goodfellow的Quora问答】：

比其它模型生成效果更好（图像更锐利、清晰）。
GAN能训练任何一种生成器网络（理论上-实践中，用 REINFORCE 来训练带有离散输出的生成网络非常困难）。大部分其他的框架需要该生成器网络有一些特定的函数形式，比如输出层是高斯的。重要的是所有其他的框架需要生成器网络遍布非零质量（non-zero mass）。
不需要设计遵循任何种类的因式分解的模型，任何生成器网络和任何判别器都会有用。
无需利用马尔科夫链反复采样，无需在学习过程中进行推断（Inference），回避了近似计算棘手的概率的难题。

GAN目前存在的主要问题：

难以收敛（non-convergence）
目前面临的基本问题是：所有的理论都认为 GAN 应该在纳什均衡（Nash equilibrium）上有卓越的表现，但梯度下降只有在凸函数的情况下才能保证实现纳什均衡。当博弈双方都由神经网络表示时，在没有实际达到均衡的情况下，让它们永远保持对自己策略的调整是可能的【OpenAI Ian Goodfellow的Quora】。
难以训练：崩溃问题（collapse problem）
GAN模型被定义为极小极大问题，没有损失函数，在训练过程中很难区分是否正在取得进展。GAN的学习过程可能发生崩溃问题（collapse problem），生成器开始退化，总是生成同样的样本点，无法继续学习。当生成模型崩溃时，判别模型也会对相似的样本点指向相似的方向，训练无法继续。
无需预先建模，模型过于自由不可控。
与其他生成式模型相比，GAN不需要构造分布函数，而是使用一种分布直接进行采样，从而真正达到理论上可以完全逼近真实数据，这也是GAN最大的优势。然而，这种不需要预先建模的方法缺点是太过自由了，对于较大的图片，较多的 pixel的情形，基于简单 GAN 的方式就不太可控了(超高维)。

所以可以看到，最终作者生成的图片分辨率都很低。在GAN 中，每次学习参数的更新过程，被设为D更新k回，G才更新1回，也是出于类似的考虑。

3.6 代码实现（paddle/pytorch）

paddle版参考《生成对抗网络，从DCGAN到StyleGAN、pixel2pixel，人脸生成和图像翻译》1.4章节。

pytorch版参考《DCGAN Tutorial》

3.7 总结

GAN本身是无监督学习，不需要标注数据。但是其训练方式是用有监督学习的损失函数来做无监督学习（有监督的标签来源于数据是真实的还是生成的），所以训练上会高效很多。这也是之后bert之类自监督学习模型的灵感来源。

四、BERT

论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

bilibili视频《BERT 论文逐段精读【论文精读】》、《Bert论文翻译》

4.0 摘要

前言：
CNN模型出来之后，在一个大的数据集上预训练好一个CNN模型，就可以帮助一大片的CV任务；而在BERT出来之前，在NLP领域没有一个这样的深度神经网络模型。所以NLP领域我们还是对每个任务构造自己的神经网络，自己训练。 BERT出来之后，就可以预训练好一个模型，来应用于很多不同的NLP任务了。简化训练的同时还提升了其性能。BERT和之后的工作使得NLP在过去几年有了质的飞跃。
全文是将BERT和ELMo和GPT对比，ELMo是使用双向信息，但是结构是比较老的RNN结构，且双向信息融合的很浅，GPT使用新的 Transformers结构，不同任务进行微调就行，但其性能受到单向模型结构的限制。BERT的主要贡献，是将预训练模式推广到深层双向体系结构，而具体的实现，是通过MLM任务来完成。通过完形填空的自监督训练机制，不需要使用监督语料，而是预测句子中被masked的词是什么，从而抽取文本特征。
由此BERT极大的拓展了Transformers的应用，使其可以在更大的无标签的数据集上训练，其效果比有标签、更小数据集上训练的模型效果还要好。

摘要：
我们介绍一种新的语言表示模型叫BERT，它是Bidirectional Encoder Representations fromTransformers的缩写（双向Transformer编码器）。与最近的语言表示模型（ELMo，GPT）不同，BERT的所有层旨在通过联合训练左右上下文的方式从未标注文本中预训练深层的双向表征。因此，预训练好的BERT模型只需使用额外的一层输出层进行微调后就能为广泛的任务创建最好的模型，例如问答和语言推理，而无需针对特定任务进行大量的结构修改。（一段话说明和ELMo，GPT的主要区别）

芝麻街是美国妇孺皆知的一个少儿英语类节目，ELMo是芝麻街里面一个人物的名字，BERT是芝麻街里另一个主人公的名字。ELMo和BERT开创了NLP领域芝麻街系列文章之先河。之后芝麻街的主要人名基本都被用过。

GPT是单向自回归模型，用左侧信息取预测未来信息；ELMo虽然是双向，不过是基于RNN的架构，所以在应用到下游任务时，需要对架构做一些调整；而BERT是基于Transformer，不需要调整架构，这点和GPT是一样的。

BERT概念简单且实验效果很好，它在11项自然语言处理任务中获得了最好的结果，包括将GLUE分数提高到80.5%（7.7%的提升），将MultiNLI准确率提高到86.7%（4.6%的提升），将SQuAD v1.1 Test的问答F1值提高到93.2（1.5个点的提升），SQuAD v2.0 Test的F1提高到83.1（5.1个点的提升）。

4.1 导论

语言模型预训练已被证明对改善许多NLP任务有效，这些任务包括：

句子级别的任务，例如自然语言推理和释义（ paraphrasing），通过整体分析来预测句子之间的关系来完成
token级别的任务，例如命名实体识别NER和问答，要求模型能够产生更细粒度的词级别输出。

使用预训练模型做特征表示，以应用于下游任务有两种策略：feature-based（基于特征的）和fine-tuning（微调）。前者代表是ELMo，为每个任务构造一个相关的神经网络。利用预训练好的表示（比如token
embedding）作为附加特征。后者代表是GPT，不需要改变模型结构，简单微调所有预训练的参数就可以针对下游任务进行训练。

预训练表示作为附加特征也是预训练模型的一种常用做法。附加特征会和原始输入一起输入网络。因为附加特征已经有了好的表示，所以模型训练起来会比较容易

这两种方法在预训练的过程中都使用的是同一个目标函数，它们使用的都是单向的语言模型学习通用的语言表征，限制了预训练表示的能力，尤其是对于fine-tuning方法。主要的限制是标准语言模型是单向的（语言模型是从前面的词预测后面的词），这样在选架构的时候有一些局限性。例如，在OpenAI GPT中，作者使用从左到右的体系结构，其中每个token只能参加Transformer的自注意层中的先前token。这样的限制对于句子级任务不是最理想的，并且在将基于fine-tuning的方法应用于token级任务（例如问题回答）时可能非常不利，在这种情况下，双向整合上下文至关重要。
BERT通过使用“遮蔽语言模型”（MLM，masked language model）预训练目标，减轻了先前提到的单向语言模型限制。遮蔽语言模型从输入中随机屏遮蔽了某些token，目的是仅根据其上下文来预测被遮蔽的单词（原始词表对应的id）。与从左到右的语言模型预训练不同，MLM使语言表征能够融合上下文，这使得我们能够预训练深层双向Transformer模型。除了遮蔽语言模型外，我们还使用“下一个句子预测”任务来联合预训练文本对表示。

MLM相当于完形填空，左右信息都要看；NSP就是判断两个句子是否相邻（第二句是否是第一句的下一句）。

本文的贡献如下：

我们证明了双向预训练对于语言表示的重要性。
- 与GPT不同，它使用单向语言模型进行预训练，BERT使用遮蔽语言模型来实现预训练的深度双向表示。
- 与ELMo不同，后者独立训练的从左到右和从右到左的网络，然后进行简单的浅层连接。（BERT在双向信息的应用上更好）
预训练好的语言表征，不需要再去针对特定的任务精心设计模型结构。
BERT是第一个基于fine-tuning的表示模型，可在一系列sentence-level和token-level任务上实现最先进的性能，其性能优于许多任务特定的体系结构。
BERT推动了11项NLP任务的发展。可以在BERT上找到代码和经过预先训练的模型。

4.2 结论

最近的实验表明，丰富的、无监督的预训练是许多语言理解系统不可或缺的组成部分。这样使得即使是资源少（样本少）的任务也可以享受深度单向体系结构。我们的主要贡献是将这些发现进一步推广到深层双向体系结构，使的同样的预训练模型能够成功解决各种NLP任务。

4.3 相关工作

4.3.1 基于特征的无监督方法

主要是讲词嵌入、ELMo和之后的一些工作，跳过

4.3.2 无监督的微调方法

代表作是GPT

4.3.3 监督数据中的迁移学习

自然语言推理(Conneau et al.,2017)和机器翻译(McCann et al.,2017)有很多大型的有监督数据集，在这些数据集上预训练好语言模型，再迁移到别的NLP任务上，效果是非常好的。计算机视觉研究还证明了从大型预训练模型进行迁移学习的重要性，其中有效的方法是对通过ImageNet预训练的模型进行微调。

后面的工作表面，NLP领域在大量无标签的数据集上训练出来的模型，比相对小一些的、有标签的数据集上训练的模型效果更好。同样这个想法，也在慢慢被CV领域采用，即在大量无标签的图片上训练的模型，可能比在ImageNet上训练的模型效果更好。

4.4 BERT

4.4.1 模型结构&输入输出

BERT框架两个步骤：预训练和微调。

预训练是在无标签数据集上训练的
微调使用的也是BERT模型，其权重初始化为预训练权重。所有权重在微调时都会参与训练，微调时使用有标签的数据
每个下游任务都会创建一个新的BERT模型，来训练自己的任务。说明见下图：

[CLS]是在每个输入示例前添加的特殊符号，[SEP]是特殊的分隔符标记（例如，分隔问题/答案）。

BERT的一个显着特征是其跨不同任务的统一体系结构。预训练的体系结构与最终的下游体系结构之间的差异很小。

模型结构

BERT的模型架构是多层双向Transformer编码器，基于Vaswani等人描述的原始实现。并且我们的Transformers实现几乎与原始实现相同，所以我们将省略模型结构的详细背景介绍，请读者参考诸如The Annotated Transformer之类优秀的指南。
在这项工作中，我们将层（即，Transformer块）的数量表示为L，将隐藏层的大小表示为H，并将自注意力头的数量表示为A。我们主要报告两种模型尺寸的结果： $BERT_{BASE} (L=12, H=768, A=12, Total Parameters=110M)$ 和 $BERT_{LARGE}(L=24, H=1024, A=16, Total Parameters=340M)$ 。为了便于比较， $BERT_{BASE}$ 选择了和OpenAI的GPT相同的模型的尺寸。

BERT模型可学习参数来自词嵌入层和Transformer块。

词嵌入层，词表大小3w，词向量维度为H

Transformer块分为两部分：

自注意力子层：Q、K、V分别通过一个参数矩阵 $W^Q, W^K, W^V)$ 进行投影，参数矩阵维度是H×H（其实是多头，但是合起来还是原始维度大小。投影前后维度不变，所以矩阵大小必须是H×H）。投影之后输出的多头注意力还会经过一个矩阵 $W^O$ 将其映射回H维。所以自注意力层一共四个参数矩阵，可学习的参数量是 $4H^2$ 。

MLP层：有两层，输入输出分别是[H,4H]和[4H,H]，所以每一层参数是 $4H^2$ ，两层就是 $8H^2$ 。

总参数应该是 $30000\cdot H+L\cdot 12H^{2}$ ，带入base的参数大概就是1.1亿。

模型输入输出
为了可以处理多种任务，BERT输入可以是一个句子，也可以是句子对。在整个工作中，“句子”可以是一段连续的文本，而不仅仅真正语义上的一句话。BERT的输入是一个标记序列，可以是一个或两个句子。

Transformer输入是一个句子对，编码器和解码器分别输入一个句子。而BERT只有编码器，要处理两个句子只能将其并为一个序列。
BERT如果使用空格切词，一个词是一个token。BERT的训练数据量是非常大的，那么词表大小也会特别大，比如百万级别。那么根据上面的算法，模型的可学习参数基本都在词嵌入部分。
WordPiece原理就是，一个词在数据集中出现的概率不大，那么就把它切开成子序列。如果子序列（很可能是词根）出现的概率很大的话，那么只保留这个子序列就行。这样就可以把比较长的词切成一些经常出现的片段。这样词表的大小相对来说比较小。

BERT使用3w个词表的WordPiece embeddings。每个输入序列的第一个标记始终是一个特殊的分类标记（[CLS]，代表classification），BERT希望CLS对应的最终输出可以代表整个序列的信息。（自注意力可以同时看到所有词，所以CLS放在句首是没问题的，不一定非要在句尾）。

句子对可以合在一起输入，但是为了做句子级别的任务，所以需要区分这两个句子，有两个办法：

句尾加上特殊词[SEP]来分隔（表示separate）
在词嵌入层用一个可学习的向量来表示每个token是属于句子A还是句子B。
在下图中，画出了大概示意。我们用E表示输入embedding，用 $C\in \mathbb{R}^{H}$ 来表示特殊token[CLS]的最终隐向量，用 $T_{i}\in \mathbb{R}^{H}$ 来表示第i个输入token的最终隐向量。

对于给定的token，它的输入表征是由token，segment，和 position embeddings相加构成的。这种结构的可视化效果如图2所示。

Transformer中位置信息是通过位置编码（cos函数）来得到的，而这里的位置信息和句子信息都是通过embedding学出来的。

4.4.2 BERT预训练（MLM+NSP）

Task #1：Masked LM

对于一个token序列，我们随机屏蔽了每个序列中15%的WordPiece token，将其替换为[MASK]（CLS和SEP不做替换）。这带来的一个问题是，微调时数据中是没有[MASK]的。预训练和微调时看到的数据有点不一样。为了缓解这种情况，我们并不总是用实际的[mask]标记替换“masked”词。
如果某个token被选中masked，那么有80%的概率这个token真的被替换为[MASK]；10%的概率将其替换为一个随机token（噪音），另外10%保持不变（真实数据，但是这个位置也要预测）。这个概率是实验跑出来的，效果不错。

Task #2：Next Sentence Prediction（NSP）

许多重要的下游任务，如问答（QA）和自然语言推理（NLI）都是建立在理解两个句子之间关系的基础上的，而语言建模并不能直接捕捉到这两个句子之间的关系。为了训练一个能够理解句子关系的模型，我们预先训练一个二值化的下一个句子预测任务。
具体来说，选择的句子对A和B，B有50%的概率是A的下一个句子（标记为is next），50%的概率是语料库中随机挑选句子（标记为notnext。
尽管NSP很简单，但我们在第5.1节中可以看到此任务的预训练对QA和NLI都非常有益。

# 示例
Input = [CLS] the man went to [MASK] store [SEP]
he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP]
penguin [MASK] are flight ##less birds [SEP] # 两个## 表示后面这个词less跟在flight后，二者是同一个词被切成两半
Label = NotNext

预训练过程很大程度上遵循现存文献的语言模型预训练，我们使用BooksCorpus（800M个单词）和English Wikipedia（25亿个单词）。为了获取长的连续序列，使用文档级的语料（文章）比使用像Billion Word Benchmark这样无序的句子级语料更为重要。

4.4.3 BERT微调

Transformer是编码器解码器结构，编码器和解码器之间是不能直接看到的。而BERT只用了编码器，整个句子对都可以输入模型，self-attention机制能够允许两端相互看，所以self-attention编码的连续文本对，有效的包含了两个序列之间的双向交叉attention。（相比Transformer会做得好一点）

对于每个下游任务，我们只需将特定于任务的输入和输出连接到BERT中，然后端到端微调所有参数。对于输入，预训练中的句子A和句子B类似于（1）释义中的句子对，（2）文本蕴含中的前提和假设对，（3）问答中的问句和段落对，（4）文本分类或者序列标注中不全的text-∅ \varnothing∅ 对。对于输出，token 表示会被喂入token级任务的输出层，例如序列的标注或者问题的答句，并且[CLS]喂入输出层用于分类，例如情感分析和文本蕴含。
论文第四节会详细介绍如何根据下游任务构造输入输出。

4.5 实验

在这部分，我们将介绍BERT在前面提到的11项NLP任务中的结果。

4.5.1 GLUE数据集（分类）

GLUE基准 (Wang et al., 2018a)是一个有着各种NLU任务的集合，在附录B.1中详细介绍了GLUE数据集。下面是最终的GLUE任务分类结果;（句子级别的任务，使用CLS最终输出向量来分类）

4.5.2 SQuAD v1.1（问答）

The Stanford Question Answering Dataset(SQuAD v1.1) 是斯坦福一个包含10w crowd-sourced句子对的数据集。给定一个问题和一个来自包含答案的Wikipedia段落，任务是预测答案在段落中所在的位置（这个片段的开头和结尾）。
具体来说就是学习开始向量S和结尾向量E。通过计算Ti和Si的点积，然后对段落中所有词的点积都进行softmax之后得到第i个词是答案开头的概率。结尾概率的计算同理。

微调使用的epoch值是3，学习率是5e-5，batch size是32。这句话对后面误导很大，因为BERT微调时很不稳定，同样的参数训练，方差非常大。所以需要多训练几个epoch。另外作者使用的优化器是不完全版的Adam，训练长的时候是没问题，训练短的话有问题，要改回完全版。

4.5.3 SQuAD v2.0（问答）

不再细讲，试验结果如下;

4.5.4 SWAG（句子对任务）

SWAG数据集包括了113K个句子对，给定一个句子，任务是从备选的四个选项中选择最合理的下一句。在SWAG数据集上微调的时候，我们构造四个输入，每一个序列都是由给定的句子（sentenceA）和可能的下一句(sentence B)组成。唯一要引入的特定任务参数是一个向量，这个向量与[CLS] 的输出C进行点积表示为每一个选择的分数，然后用softmax得到概率（和上面差不多）。微调的参数为epoch=3，learning rate=2e-5，batch size=16。试验结果就不贴了。

4.6消融试验

在这一部分，我们对 BERT 的许多方面进行了消融实验，以便更好地理解每个部分的相对重要性。其他的一些研究可以在附录C中找到。

4.6.1 模型各部分的影响

BASE模型
No NSP：去掉NSP任务
LTR&No NSP：模型只是从左看到右，不使用MLM模型，且没有NSP，但是加上一个BiLSTM

4.6.2 模型配置的影响

我们将探讨模型大小对微调任务准确度的影响。我们使用了不同的层数，隐藏单元，注意力头数训练了一些BERT模型，而其他超参数和训练过程与之前描述的一样。

我们能够看出在所有的数据集上，越大的模型准确率越高，甚至是只有3600个标注的训练样本的MRPC任务。年来人们都知道，增加模型的大小将带来如机器翻译和语言模型上的持续提升，然而，这是第一次有力的证明，如果模型得到了足够的预训练，那么将模型扩展到极端的规模也可以在非常小的任务中带来巨大的改进（只需要进行微调少量参数）。

BERT由此引发了模型大战，看谁的模型更大。GPT-3都有一千个亿的参数，现在的模型都有往万亿的路上走。

4.6.3 特征提取

简单说就是，将BERT作为特征提取器，而不是进行微调，效果相比之下会差一些。所以使用BERT应该微调。

4.7 总结

BERT使用Transformer的编码器而不是解码器，好处是可以训练双向语言模型，在语言理解类的任务上表现比GPT更好，但缺点是，做生成类的任务不方便，比如机器翻译、摘要生成等等。只不过NLP领域，分类啊之类的语言理解任务多一些，所以大家更喜欢用BERT。
BERT满足了深度学习研究者的一个喜好：训练一个3亿参数的模型，在几百G的数据集上预训练好，就可以提升一大批NLP的下游任务，即使这些任务的数据集都很小。
GPT和BERT是同期提出的模型，两者都是预训练模型微调，很多思路是一样的，即使后者效果好一点也会被后来者超越，那为啥BERT更出圈？因为BERT的利用率是GPT的10倍，影响力自然就大了10倍不止。

你可能感兴趣的:(论文,深度学习,nlp,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

李沐论文精读系列一： ResNet、Transformer、GAN、BERT

文章目录

一、 ResNet

1.0 摘要，论文导读

1.1 导论

1.1.1 为什么提出残差结构？

1.1.2 实验验证

1.2 相关工作

1.3 实验部分

1.3.1 不同配置的ResNet结构

1.3.2 残差结构效果对比

1.3.3 残差结构中，输入输出维度不一致如何处理

1.3.4 深层ResNet引入瓶颈结构Bottleneck

1.4 代码实现

1.5 结论

二、Attention is All You Need

2.0 摘要

2.1 结论

2.2 导论

2.3 背景

2.4 模型架构

2.4.1 编码器和解码器

2.4.2 注意力机制

2.4.2.1 缩放的点积注意力（Scaled Dot-Product Attention）

2.4.2.2 多头注意力

2.4.2.3 注意力在模型中的应用

2.4.3 基于位置的前馈神经网络（Position-wise Feed-Forward Networks）

2.4.4 词嵌入和Softmax

2.4.5 位置编码（Positional Encoding）

2.5 为什么使用自注意力机制

2.6 实验（可以跳过）

2.6.1训练数据和批处理

2.6.2 硬件和时间

2.6.3 优化器

2.6.4 正则化

2.6.5 模型配置

2.7 评价

三、GAN论文精读

3.0 前言&摘要

1.1 导论

3.2 相关工作

3.3 对抗网络（目标函数及其求解）

3.3.1 目标函数

3.3.2 迭代求解过程

3.4 理论结果

3.4.1 全局最优解 p g = p d a t a p_g=p_{data} pg​=pdata​

3.4.2 收敛证明

3.5 GAN的优势与缺陷

3.6 代码实现（paddle/pytorch）

3.7 总结

四、BERT

4.0 摘要

4.1 导论

4.2 结论

4.3 相关工作

4.3.1 基于特征的无监督方法

4.3.2 无监督的微调方法

4.3.3 监督数据中的迁移学习

4.4 BERT

4.4.1 模型结构&输入输出

4.4.2 BERT预训练（MLM+NSP）

4.4.3 BERT微调

4.5 实验

4.5.1 GLUE数据集（分类）

4.5.2 SQuAD v1.1（问答）

4.5.3 SQuAD v2.0（问答）

4.5.4 SWAG（句子对任务）

4.6消融试验

4.6.1 模型各部分的影响

4.6.2 模型配置的影响

4.6.3 特征提取

4.7 总结

你可能感兴趣的:(论文,深度学习,nlp,计算机视觉)

3.4.1 全局最优解 $p_g=p_{data}$