初窥TensorRT

简介
TensorRT 是Nvidia推出了一套加速库,针对神经网络计算做出一系列优化。

优化内容

  1. 合并一些层
    1,1 Conv、BN、ReLu合并成一个CBR层
    1.2 取消Concat层。直接将concat层上一层的输出连接到需要的地方。
    1.3 以Inception为例,多个分支中的第一层均为1*1卷积,合并成一个。

  2. 并行
    多个分支,如果没有依赖关系,可以进行并行计算。

  3. 低精度
    支持FP16和INT8。在训练阶段,由于反向传播梯度可能比较小,因此需要高精度。但是在Inference阶段,不太需要高精度。

  4. 模型固定,可以对计算图进行优化(这个不太理解)

  5. Kernel Auto-tuning
    根据超参和输入大小的不同,选用不同的卷积计算方法

  6. Dynamic Tensor Memory
    减少内存reuse

参考链接
https://yq.aliyun.com/articles/580307
https://cloud.tencent.com/developer/news/329901

你可能感兴趣的:(初窥TensorRT)