Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning

Abstract & Introduction & Related Work

  • 研究任务
    自动音频字幕
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    1. 我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法
    2. 为了生成字幕,我们采用了广泛使用的transformer解码器
  • 实验结论
    我们的结果将以前报告的最高SPIDEr从16.2提高到17.3

Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第1张图片

Encoder

一共有 N t N_t Nt 个 CNN块,每个wave-block里面还有七个一维CNN卷积

name kernel_size stride dilation padding
C N N t 1 , t 4 , t 7 n t CNN_{t_1,t_4,t_7}^{n_t} CNNt1,t4,t7nt 1 1 1 0
C N N t 2 , t 3 n t CNN_{t_2,t_3}^{n_t} CNNt2,t3nt 3 1 1 1
C N N t 5 , t 6 n t CNN_{t_5,t_6}^{n_t} CNNt5,t6nt 3 1 2 2

通道数为C
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第2张图片
BN是batch normalization

H t 0 = X t H_t^0 = X_t Ht0=Xt
在这里插入图片描述
所有的CNN都是在X上沿着时间顺序进行操作,使得其能学习到局部信息
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第3张图片
C是通道数,所有的操作都是沿着输出的时间维度进行的
在这里插入图片描述
每个二维卷积后都接上一个ReLU

E t f E_{tf} Etf有N个二维卷积块

2D CNN ( S − C N N n t f ) (S-CNN^{n_{tf}}) (SCNNntf) -> leaky ReLU-> 2D CNN ( P − C N N t f n t f ) (P-CNN^{n_{tf}}_{tf}) (PCNNtfntf)
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第4张图片
S − C N N n t f S-CNN^{n_{tf}} SCNNntf有五个不同的5 * 5卷积核,步幅为1,填充为2,用来学习输入的每一个通道中的时间频率模式

P − C N N t f n t f P-CNN^{n_{tf}}_{tf} PCNNtfntf有一个正方形卷积核 size>1,步幅为1,填充为2,PCNN用来学习不同通道的SCNN卷积的输出
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第5张图片Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第6张图片
S-CNN输入通道为1,输出通道跟temp一样
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第7张图片
E m e r g e E_{merge} Emerge有一个二维 C N N m , F N N M CNN_m,FNN_M CNNmFNNM
CNNm 卷积核大小为5 * 5,步幅为1,dilation为1,填充为2,两个输入通道一个输出通道

Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第8张图片

Decoder

使用transformer的decoder作为我们的解码器,
用来全连接层来将独热编码的单词进行embedding抽取器,一个位置信息编码处理, N d e c N_{dec} Ndec 个解码块,一个全连接层在最后作为分类器,分类器和编码器的全连接层权重通过单词和字幕共享

每一个解码块有一个masked多头注意力,一个层归一化处理,其他一个作用于Z的多头注意力,再一个层归一化,一个全连接层,再接一个其他的层归一化
Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第9张图片
在这里插入图片描述

Evaluation

Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning_第10张图片

Conclusion

在本文中,我们提出了一个新的AAC架构,基于卷积和前馈神经网络,称为WaveTransformer(WT)。WT专注于从音频中学习长时间和时间频率信息,并使用Transformer模型的解码器将其与文本表达出来。我们使用AAC DCASE挑战赛中采用的数据集和指标对WT进行了评估,并将我们的方法与以前的SOTA方法和DCASE AAC基线进行了比较。获得的结果表明,学习时间频率信息,结合良好的语言模型,可以导致良好的AAC性能,但纳入长的时间信息可以提高获得的分数

Remark

写的有点臭,让人看着容易乱

你可能感兴趣的:(读paper,Audio,人工智能,机器学习,深度学习,音频,transformer)