[NLP学习笔记01]seq2sq2、非端到端模型架构

关于对端到端模型、非端到端模型架构的理解

1.端到端模型(end to end learning)

端到端模型是指数据不经过任何的预处理直接作为模型的输入。经过模型输出的结果会与原来的label有所误差,通过反向传播算法,将参数不断修正、优化。在人脸识别问题,假设原图是一张大图,里面会一个人或几个人,那么端到端就是原图丢进网络,直接返回每个人对应的识别id(比如输出小明和小红。

2.非端到端模型

非端到端模型是采用多个模型,在模型中针对具体的任务会分解不同的模块,每个模块需要处理独立的任务,由于每个任务单独训练,这些任务产生的错误会相互叠加。即某一层的错误作为输入传到下一层,会影响下一层的训练。在人脸识别问题中,首先过滤其他要素,检测到人脸,再对人脸进行识别。

3.Seq2seq(Sequence to Sequence)

seq2seq是端到端模型架构在应用层的概念,是序列到序列的模型。具体是指通过编码(Decoder)和解码(Encoder)两个过程将一个作为输入的序列信号转换为输出的序列信号,在经典的实现中,编码器和解码器各由一个循环神经网(RNN,LSTM,GRU均可)构成。
[NLP学习笔记01]seq2sq2、非端到端模型架构_第1张图片

4.RNN、LSTM

循环神经网络(Recurrent Neural Network, RN)是一类以序为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。在自然语言处理中,RNN更关注于context vector的分布结果,(1)如果context vector不够有效,会出现Bottle Neck问题。(2)由于不断地连续求导会出现梯度消失问题。LSTM简单来说通过引入注意力机制,将注意力集中在某个区域。

5.Transfomer

Transfomer模型从宏观上看仍然是Decoder-Encoder结构,但是通过引入自注意力机制(self-attention)重新进行构建,摒弃了RNN结构。

你可能感兴趣的:(自然语言处理,深度学习)