cuDNN: efficient Primitives for Deep Learning 论文阅读笔记
这篇论文主要讨论如何针对CNN做一些GPU矩阵计算的优化。传统CNN计算主要开销是在convolutions,activationfunction,pooling.首先,我们看convolution的操作过程:参数表:O是输出inputfeaturemap,F是filter,D0是inputfeaturemap.从公式看到如果用循环操作,需要7次循环,n,k,p,q4次可独立循环,c,r,s是累加