音视频序列数据分析(RNN->seq2seq->Encoder+Decoder->Attention->Transformer)
1.RNN针对语音、视频等序列数据,我们需要进行全局时序信息考虑,因此RNN模型是最初最基础的模型结构。主要可以分析的任务:语音识别、语音合成、视频摘要生成、音视频情感预测等。存在问题:输出的序列长度与输入序列长度保持一致,不能任意变化。2.Seq2Seq(即Encoder+Decoder结构)seq2seq,由Encoder和Decoder两个部分组成,每部分都是一个RNNCell(RNN、LS