Time-Delay Neural Network(TDNN)-上

前言

  • 本篇博客仅对TDNN的网络结构进行简单梳理,使读者对TDNN的网络结构有一个清晰直观的印象。博客基于对论文 Phoneme Recognition Using Time-Delay Neural Network 的阅读和理解,如有谬误,还望指出,不胜感激。

正文

  • TDNN与1989年就已提出(在我出生之前), 用于音素识别。以下部分将以论文中的结构做简单说明,网络结构如下图:
    Time-Delay Neural Network(TDNN)-上_第1张图片

  • 这是一个只有4层(包含输入层)的TDNN,每一层的Time-Delay用N表示,单元数用J表示,将逐层介绍。

    • 输入层:N=1(因为输入层特征是单帧提取的), J=16(Mel滤波的维度为16),共15个frame;
    • 第一隐层: N=2, J=8, 共13(15-2) frame, 参数量 8 x (2+1) * 16 = 384;
    • 第二隐层: N=4, J=3, 共9(13-4) frame, 参数量 3 x (4+1) * 8 = 120;
    • 输出层:N=8, J=3, 共1(9-8) frame, 参数量 3 x (8+1) * 3 = 81;
      总的参数量为384 + 120 + 81 = 585,相比现在网络动辄上百万的参数量,简直轻量到不能再轻量了。论文中提到,最后一层再时间维度上共享参数,如此输出层的参数量为 3 x 3 = 9,总的参数量更少。

参考

  1. Phoneme Recognition Using Time-Delay Neural Network
  2. Time-Delay Neural Network

你可能感兴趣的:(计算机,算法)