【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记

Transformer

  • 总结
  • Sequence-to-sequence(Seq2seq)适用任务
    • 恰当任务:语音识别
    • 恰当任务:机器翻译
    • 恰当任务:语音翻译
    • 恰当任务:语音合成
    • 恰当任务:聊天机器人
    • 恰当任务:自然语言处理
    • 硬解任务:文法分析
    • 硬解任务:多标签分类
    • 硬解任务:目标检测
  • Sequence-to-sequence(Seq2seq)
  • Encoder
    • Transformer's Encoder 原始论文设计
    • Transform's Encoder 原始论文的设计是否最优?- 不是
  • Decoder
    • Autoregressive(AT)
      • Autoregressive Decoder 如何开始?- "begin"
    • Transformer's Decoder
      • Transformer's Encoder Vs Transformer's Decoder
    • Decoder相比Encoder不同点:
      • mask self-attention
      • Decoder如何决定输出的Sequence的长度(何时停下来)?- "end"
    • Non-autoregressive(NAT)
      • NAT Decoder 如何决定输出的Sequence的长度(Begin个数)?
        • 方法一:classifier
        • 方法二:大于输出上限的begin个数
        • NAT优点
    • 为什么 NAT Decoder 通常比 AT Decoder 的表现差?
  • Encoder与Decoder间如何传递信息?- Cross Attention
    • Cross attention 原理
    • Cross attention 效果展示
  • Training
  • Tips(训练Seq2Seq模型)
    • Copy Mechanism
    • Guided Attention
    • Beam Search
    • Optimizing Evaluation Metrics
  • Exposure Bias

总结

列举Seq2seq的适用任务。
encoder:输入向量序列,处理,输出向量序列。
Transformer’s Encoder 原始论文设计的结构。
Transformer’s Encoder 原始论文设计的结构并不是最优。

Sequence-to-sequence(Seq2seq)适用任务

输入一个序列,输出一个序列,但是输出序列的长度由model来决定。

下面是Seq2seq的例子。

恰当任务:语音识别

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第1张图片

语音辨识。输入一段声音讯号,经过语音识别,输出N个字符,但是无法得知具体输出的字符个数,所以只能由机器来自主决定输出多少字符。

恰当任务:机器翻译

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第2张图片

机器翻译,输入某一种语言的一句话,经过翻译输出另一种语言的句子,但是输出的字符数是认为确定不了的,这种情况下只能通过机器自主决定。

恰当任务:语音翻译

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第3张图片
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第4张图片

**语音翻译。**语音翻译与语音识别不同,考虑一种没有文字的语言(如:台语),输入该语言的语音到机器中,通过机器处理,得到一种人类可以理解的文字。

恰当任务:语音合成

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第5张图片

语音合成。输入一串文字,输出一段语音。

恰当任务:聊天机器人

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第6张图片

聊天机器人

恰当任务:自然语言处理

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第7张图片

自然语言处理

上述应用,使用客制化模型比使用通用Seq2seq可以得到更好的结果。

有些应用,即使不是Seq2seq模型的问题,仍用Seq2seq的模型处理。例如下面的例子。

硬解任务:文法分析

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第8张图片

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第9张图片
文法剖析

论文Grammar as a Foreign Language中,将文法剖析任务看做翻译任务,并且得到了很好的效果。

硬解任务:多标签分类

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第10张图片

多分类任务的处理方法:输入经过处理后输出多个类别的分数,取最高的n个类别为结果输出。

多标签分类任务:一个输入对应多个类别。
多标签分类任务不能使用多分类任务的方法处理,因为输入对应的类别数不同,不能事先规定固定的输出类别数。
多标签分类的处理方法:输入经过Seq2seq模型处理,机器自己决定输出多少个类别。

硬解任务:目标检测

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第11张图片

Sequence-to-sequence(Seq2seq)

内部结构分为两个部分,一个是encoder另一个是decoder。一个是编码器,一个是解码器。输入一个seq给Encoder, 处理的结果丢给decoder,然后decoder来决定输出一个什么样的seq。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第12张图片

Seq2Seq最开始是被用在翻译上面,下面是其结构,想要详细了解如何被应用在翻译上,可以阅读下图中的论文。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第13张图片

随着人们对seq2seq的研究越发深入,现在主要应用在transformer上面,结构如下图:

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第14张图片

Encoder

Encoder主要工作就是输入一排向量,输出另外一排向量。但是这样子的工作很多模型都可以做到,比如self-attention(自注意力),RNN,CNN。Transform里面用的就是self-attention(自注意力)。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第15张图片
1 输入。
2 Positional Encoding 位置编码,Self-attention 本身没有位置信息。
3 输入block。
4 多头注意力。
5 add & norm。即 residual + layer norm
6 fully connected network feed forward。
7 add & norm。即 residual + layer norm。
8 输出block。
9 可重复多次block。

Transformer’s Encoder 结构如下:

  1. 在inputs的地方加上了positional encoding,之前有讲过如果只用self-attention,没有位置信息,所以需要加上positional的information。

  2. Multi-Head Attention:这里就是self-attention的block,然后专门强调说它是Multi-Head的self-attention。

  3. Add&Norm:residual加上layer normalization。

  4. Feed Forward: 是FC的feed forward network。

  5. N×:block会重复N次。

encoder里面会分成很多的block,每个block都是输入一排向量输出一排向量。
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第16张图片

但是每个block并不是neural network的一层(layer),是因为一个block里面是好几个layer在做事情。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第17张图片

每个block里面的工作:
1 输入一排向量
2 经过self-attention处理
3 输出一排向量
4 再将输出的每个向量丢到fully connected的feed forward network里面
5 output一排新的vector

Transformer’s Encoder 原始论文设计

原来的transform里面的block的结构较复杂。

原先的设计不只是输出一个vector,还要把输出的vector加上它的input得到新的output。这样的network架构叫做residual connection。这种架构在deep learning的领域应用非常的广泛。

[补充:为什么Encoder中要使用residual connection?]

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第18张图片

得到residual 的结果以后在经过norm,这里的norm不是batch normalization,用的是layer normalization。它做的事情比batch normalization更简单一点,简而言之layer norm就是输入一个向量输出一个向量,不用考虑batch的资讯,过程就是对同一个feature同一个example里面不同的dimension去计算它的mean跟standard deviation(batch normalization 是对不同feature不同example的同一dimension计算mean跟standard deviation),然后在经过标准化就是layer normalization的输出。这个输出后面是FC的输入,而FC里面也有residual的架构,我们会把FC network的input跟它的output加起来做一下residual得到新的输出,再把这个输出做一次layer normalization得到的才是真正的输出,这个输出才是transform encoder里面一个block的输出。

下图 self-attention 之上,展示了layer norm的过程。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第19张图片

Bert也使用了transform的encoder。

Transform’s Encoder 原始论文的设计是否最优?- 不是

例如在 on layer normalization in the transformer architecture 这篇论文中,提出将layer norm放入block中。
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第20张图片

在 rethinking batch normalization in transformers 这篇论文中,分析回答了为什么transformer encoder中不是batch normalization而是layer nomalization,进而提出transformer encoder中使用power normalization,效果更好。

Decoder

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第21张图片

Autoregressive(AT)

decoder其实有两种,下面介绍Autoregressive de decoder(AT),是通过语音辨识来详细了解它得运作过程。

首先,输入一个声音讯号,经过encoder输出一组vector, 然后将这个输出当作decoder得输入,最后产生语音辨识得结果。

Autoregressive Decoder 如何开始?- “begin”

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第22张图片

如果要处理NLP的问题,每一个token都可以把他用一个One-Hot的Vector(其中一维是1,其他都是0)来表示,所以begin也是用One-Hot Vector来表示。然后decoder吐出一个向量,这个vector的长度非常长,跟vocabulary的size是一样的。

Vocabulary:首先知道decoder输出的单位是什么? 假设是中文的语音辨识,那这里vocabulary的size可能就是中文的方块字的数目。要是英文的话,用字母数量太少,用单词数量又太多,所以可以用Subword当作英文的单位,即单词的字首字根的组合,数量适中。

然后输出的向量中的每一个中文的字都会对应一个数值,数值最高的那一个中文字就是最终的输出。

因为在产生输出向量之前,通常会跑出一个Softmax,就跟做分类一样,做分类得到最终的输出前通常会跑一个Softmax, 所以这一个向量里面的分数,它是一个Distribution,也就是向量对应的值总和为1。

Decoder将自己的输出作为产生下一个字符的输入,所以,如果上一个输出错误,也会影响下一步的预测;输出是一个个产生的,串行,只能考虑左边的。

拥有begin和end标志。

Transformer’s Decoder

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第23张图片

Transformer’s Encoder Vs Transformer’s Decoder

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第24张图片
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第25张图片

Decoder遮住中间一部分后,Encoder和Decoder没有太大差别。

Decoder相比Encoder不同点:

mask self-attention

mask self-attention:只考虑左边的输入;self-attention考虑全部的输入

mask self-attention Vs self-attention

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第26张图片

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第27张图片

self-attention,如上图,输入一排vector,输出一排vector,这个vector的每一个输出都要看过完整的input之后才做决定,其实输出b1的时候其实是根据a1~a4所有的资讯去输出b1。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第28张图片

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第29张图片

masked self-attention 如上图,当self-attention转成Masked Attention的时候,他的不同点是,不能再看右边的部分,也就是产生b1的时候只能考虑a1的资讯,不能去看a2、a3、a4,产生b2的时候只能考虑a1、a2的资讯,不能考虑a3、a4的资讯,后面类似,最后产生b4时可以考虑a1~a4所有的资讯。这就是Masked的self-attention。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第30张图片

一开始decoder的运作方式它是一个一个输出的,是先有a1,再有a2,然后是a3、a4,所以当计算b2时是没有a3和a4的,所以没办法将后面的考虑进来。

这跟原来的Self-Attention不一样,原来的Self-Attention中a1到a4是一次整个输入到Model里面的。

Decoder如何决定输出的Sequence的长度(何时停下来)?- “end”

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第31张图片

关键问题:Decoder自己决定输出的长度,但是到底输出的sequence的长度应该是多少呢?也就是机器如何决定该何时停下来。我们没办法决定,因为输出多少是非常复杂的,我们期望机器可以自己学到。

如下图,准备一个特别的符号“断”,用end来表示这个特别的符号,其实begin和end可以用同一个符号,因为begin只在开始时会出现一次。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第32张图片
机器要自己知道在将自己的输出“习”再次当作输入时,要能够判断出现在应该输出end。

Non-autoregressive(NAT)

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第33张图片

AT是输入一个begin,输出一个字符,将该字符作为后续的输入,输入一个输出一个,依次产生字符。
NAT是一次性输入全部的begin,然后输出全部的字符。

NAT Decoder 如何决定输出的Sequence的长度(Begin个数)?

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第34张图片

方法一:classifier

另外取一个classifier,将encoder的input作为classifier的输入,classifier输出一个数字,该数字代表应该要输出的长度。

方法二:大于输出上限的begin个数

输入一堆begin的token,也就是大于输出上限值数量的输入,所以输出一堆的字符,忽略end后面的只取前面的字符。

NAT优点

(1)平行化:AT输出时是一个一个产生的,所以要输出100个字的句子,就要做一百次的decoder。但是NAT的decoder不管句子的长度如何,都是一个步骤就产生出完整的句子。速度上NAT的decoder会跑的比AT快。

这个NAT Decoder的想法是在有transformer和self-Attention的decoder以后才有的,因为以前如果用那个LSTM、RNN的话,就算给他一排Begin,也没有办法同时产生全部的输出,所以说在没有self-Attention,只有RNN、LSTM的时候,根本就不会有人想要做什么NAT的decoder。

(2)可以控制输出的长度。例如语音合成时,如果想要系统讲话快一点,就可以把classfier的output除以二,讲话的速度就会变成二倍速。同理,放慢速度就将输出的长度乘以二。

NAT Decoder 通常比 AT Decoder 的表现差

为什么 NAT Decoder 通常比 AT Decoder 的表现差?

multi-modality 问题。

Encoder与Decoder间如何传递信息?- Cross Attention

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第35张图片

Cross attention,它是连接Encoder跟Decoder之间的桥梁,从图中可以看出,这个模块的输入部分,有两个箭头来自encoder,一个来自decoder。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第36张图片

Cross attention 原理

Cross Attention 出现在 Transformer 之前,且 Cross Attention 出现之后才出现了 self-attention。

Cross attention:用Encoder产生的所有的K、V和decoder中的Mask self-attention产生的q分别再做attention计算。

模块Cross attention实际运作过程:

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第37张图片

如上图,decoder就是产生一个q,去encoder那边抽取资讯出来当作接下来decoder里面的Fully-Connected 的Network的Input。具体来说就是,q和k1、k2、k3去计算分数,然后在和v1、v2、v3做Weighted Sum做加权,加起来得到v’,然后交给Fully-Connected处理。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第38张图片

Cross attention 效果展示

该效果分析,并不是来自Transformer论文,而是出自论文 Listen, attend and spell: A neural network for large vocabulary conversational speech recognition。

该论文作者在斯坦福大学做了论文介绍。链接

该论文中的模型没有赢过当时最好的语音辨识系统,但是只差一点,该论文证明了Seq2Seq应用在语音辨识系统中似乎是有潜力的。

Cross Attention 出现在 Transformer 之前,且 Cross Attention 出现之后才出现了 self-attention。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第39张图片

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第40张图片

原始论文中,所有Decoder层都是取最后一个Encoder层的输出。但是,并不是一定要这样设计,关于Decoder层如何取Encoder层的输出,可以有不同的设计。

Training

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第41张图片

如上图,输入一段声音讯号,第一个而应该要输出的中文字是机,所以当把begin丢给decoder的时候,它的第一个输出要跟机越接近越好,即“机”这个字会被表示成一个One-Hot的Vector,在这个vector里面只有机对应的那个维度为1,而decoder的输出是一个Distribution是一个几率的分布,我们希望这个几率的分布跟One-Hot的Vector越接近越好。所以去计算Ground truth和distribution之间的Cross Entropy,希望这个Cross Entropy的值越小越好。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第42张图片

首先,已经知道输出应该是机器学习这四个字,然后告诉decoder它的正确输出应该是机器学习这四个中文字的One-Hot Vector,我们希望输出跟这四个字的One-Hot Vector越接近越好,在训练的时候每一个输出都会有一个Cross Entropy,每一个输出跟One-Hot Vector 跟他对应的正确答案都有一个Cross Entropy,最后希望所有的Cross Entropy的总和最小。

现在还有end的问题,机器要输出的不只是四个字,还有一个end,所以要让机器知道输出四个字以后,还要记着输出“断”。所以应该告诉decoder第五个位置的输出应该跟断的One-Hot Vector它的Cross Entropy越小越好。这个就是Decoder的训练。

Teacher forcing:训练时给正确的答案 Ground Truth 作为Decoder的输入。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第43张图片

这个训练会产生一个问题:训练的时候decoder会得到正确的答案作为输入,但是testing时没有正确答案,这中间显然会有一个Mismatch。

[待补充:如何解决这个Mismatch?]

Tips(训练Seq2Seq模型)

Copy Mechanism

Copy Mechanism,有些信息可以从输入的信息中复制过来,不需要机器生成(例:从文章中复制重要信息训练生成摘要)。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第44张图片
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第45张图片

Seq2Seq模型有能力做到上述功能(从输入中复制一部分信息到输出信息中),例如:Pointer Network。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第46张图片

Guided Attention

机器学习可以看做是一个黑盒子,存在发生错误的可能性,例如:语音生成任务(将中文转化为语音)中,读4个发财、3个发财、两个发财都没有问题,但是1个发财时,机器只读“财”没有读“发”,机器漏字。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第47张图片

机器发生错误的情况,可以使用Guided Attention技术进行修正。

Guided Attention:强制机器看完全部的输入。要求机器去领导这个Attention的过程,要求机器做attention的时候是有固定的方式的,就是让机器以固定的attention模式学习。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第48张图片

对于语音合成或者语音辨识来说,我们想象中的Attention应该是由左往右的,上图中红色曲线代表Attention的分数,若是语音合成的话,应该先看最左边输入的词去产生声音,再根据中间的词汇去产生声音,最后看右边的词汇产生声音。但是当你做语音合成时发现机器的读取顺序是颠三倒四的,显然是错的,无法合成出好的结果。而Guided Attention在这里要做的事情就是强迫Attention有一个固定的样貌,将这个必须从左到右的限制放到training里面,要求机器学到Attention就应该从左到右。

有哪些框架可以实现Guided Attention?
Monotonic Attention
Location-aware Attention

Beam Search

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第49张图片

假设现在的decoder只能产生两个字,只能产生两个可能的输出一个是A,另一个为B。那对decoder而言,他做的事情就是在每一次第一个Time Step,在A、B里面决定一个,假如决定A以后将A当作输入在决定A、B要选哪一个,依次向后进行。在这个过程中,每一次Decoder都是选分数最高的那一个,但是有时候刚开始选分数高的,后面还是有可能差下来,还有时候一开始选择分数低点的,后面反而会更好。

有的任务中,树的分支很多,不可能穷举所有路径找到最优路径,可以通过Beam Search这个技术来找一个approximate(不是完全精准的估测的solution)。

Beam Search 是寻找最优路径的一个比较好的方法(有时有用,有时没用,看任务本身,任务目标本事很明确,结果确定的比较有用;有时候decoder有一些随机性比较好,比如语音合成TTS)

现在对于Beam Search的评价有好有坏,在 Sentence complication 任务中,如果使用 Beam Search 会出现严重的问题,机器会不断的产生重复文字。当然了,要看具体的任务需求,若一个任务它的答案非常明确,例如语音识别,有唯一明确的答案,一段语音识别结果只有唯一明确的答案。通常Beam Search就会比较有帮助。如果任务需要机器发挥一点创造力的时候,任务答案不唯一,Beam Search的帮助就会很小,这种任务中需要加入随机性,例如语音合成TTS。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第50张图片
【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第51张图片

Optimizing Evaluation Metrics

接下来有另外一个问题,在作业里面我们用的评估标准是BLEU Score,它是decoder先产生一个完整的句子以后跟正确的答案一整句作比较。是拿两个句子之间作比较才算出BLEU Score。但是在训练时显然不是这样的,训练时每一个词汇是分开考虑的,且Minimize的是Cross Entropy。

为什么不拿两个句子进行比较而是两个字进行比较?
因为两个句子间算BLEU score没有办法做微分,在两个字间进行比较才有办法处理。

Minimize Cross Entropy一定可以Maximizes BLEU Score吗?
不一定,因为这两个仅仅有一点关联,没有那么的直接相关,他们根本就是两个不同的数值。

训练时一般用cross Entropy,而测试时用BLEU Score。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第52张图片

能不能在 Training 的时候,就考虑 BLEU Score ?
Loss = BLEU Score 乘一个负号,那要 Minimize 那个 Loss 也等於就是 Maximize BLEU Score。

但是这件事实际上没有那麼容易,当然可以把 BLEU Score,当做训练的时候要最大化的一个目标,但是 BLEU Score 本身很复杂,它是不能微分的,之所以采用 Cross Entropy,而且是每一个中文的字分开来算,就是因为这样才有办法处理,如果要计算两个句子之间的 BLEU Score,这一个 Loss根本没有办法做微分,那怎麼办呢?记住一个口诀,遇到 Optimization 无法解决的问题,用 RL 硬 Train 就对了,遇到无法 Optimize 的 Loss Function,把它当做是 RL 的 Reward,把 Decoder 当做是 Agent,它当作是 RL, Reinforcement Learning 的问题硬做。

其实也是有可能可以做的,有人真的这样试过,当然这是一个比较难的做法,并没有特别推荐你在作业裡面用这一招。论文

Exposure Bias

训练跟测试居然是不一致的,测试的时候decoder看到的时自己的输出,所以它会看到一些错误的东西,但是在训练的时候decoder看考的是完全正确的,这个不一致的现象叫做Exposure Bias。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第53张图片

假设decoder在训练的时候永远只看到正确的东西,那么在测试的时候只要有一个错误就会一步错步步错。所以解决这个问题的一个可能的思路是给decoder的输入加入一些错误的东西,这被叫做Scheduled Sampling。但是这一思路可能会伤害到Transformer的平行化的能力。

Scheduled Sampling:在decoder进行训练的时候就给一些噪声(错误数据)。

【深度学习】05-01-Transformer-李宏毅老师21&22深度学习课程笔记_第54张图片

你可能感兴趣的:(#,深度学习-李宏毅,深度学习,transformer,人工智能)