RNN中的时间步(timestep_size)在图像上的说明

假设一张图像是(32,100,c)的形状,经过CNN学习之后的特征图变成(1,25,C),那么对于RNN最大时间长度 25(即有25个时间输入,每个输入xt列向量有 D=C个)(例如当C=512时,每个输入xt列向量有 D=512个)。
一般的,我们将T设置为W/4,其中W是图像的宽度。

参考文献:
An End-to-ENd Trainable Neural Network for Image-based Sequence Recognition and Its application to Scene Text Recognition

你可能感兴趣的:(深度学习,文字识别)