P11机器学习--李宏毅笔记(Transformer Encoder)

目录

Encoder

residual connection 

Layer normolization 

Fully Connect network 

Encoder架构 

改进


Transformer也是seq2seq模型的一种,seq2seq模型有着广泛的运用,例如机器翻译,语音辨识,其实大多数问题都能转换成QA(Question Answer)然后用seq2seq解决。

Encoder

P11机器学习--李宏毅笔记(Transformer Encoder)_第1张图片

Encoder就是整体这一个架构,一个input然后经过Block然后输出再经历Block,下面我们来介绍每个Block里面的内容

residual connection 

将输入传入self-attention,然后输出的α考虑了每一个输入然后再加上它的input这就叫residual connection 

P11机器学习--李宏毅笔记(Transformer Encoder)_第2张图片

Layer normolization 

P11机器学习--李宏毅笔记(Transformer Encoder)_第3张图片

将rasidual connection后的值传入norm层,norm层采用的是Layer Normlization,这个和我们之前将的feature normolization不一样,feature normolization是把不同feature的同一dimension拿来算,而Layer Normlization是把同一feature的不同dimension拿来算。

P11机器学习--李宏毅笔记(Transformer Encoder)_第4张图片

这里的上面写错了,应该是(x-m)/σ

Fully Connect network 

 P11机器学习--李宏毅笔记(Transformer Encoder)_第5张图片

把Layer normlization后的结果输出到Full Connect network里然后再进行一次rasidual connect再加起来传入到一个Layer normolization里取然后完成了block的输出

Encoder架构 

P11机器学习--李宏毅笔记(Transformer Encoder)_第6张图片

这里就是先输入一个然后经历Emd然后加上位置信息传入多头注意力然后经过一个Rasidual +Layernorm,然后输入到FC然后再做Rasidual +Layernorm。

改进

当然现在不是最好的,你可以进行改进

P11机器学习--李宏毅笔记(Transformer Encoder)_第7张图片

比如说在每一层input前加layer norm。。。。 

你可能感兴趣的:(机器学习李宏毅,机器学习,transformer,人工智能,深度学习,pytorch)