Jetson Nano搭建人脸检测系统: (四)后处理优化

1、目标检测的输出是什么?

  在前面两篇文章中我们使用的人脸检测算法,在经过神经网络模型输出后还进行了一系列的后处理操作,那么这些后处理操作的意义是什么?
  要解决这个问题,我们要先弄懂目标检测算法的网络结构,该模型有两部分输出:类别概率分布和边界框回归。模型的损失函数只是将边界框的回归损失与分类的交叉熵损失相加,通常使用均方误差(MSE):



  第一个概率分类问题就是图像分类经典问题不再赘述,第二个就是为什么神经网络模型可以做边框回归的问题。我认为主要原因是网络输出不是之前的全连接层,而是一个个特征图,保留了大量的位置信息,可参见这篇论文deep neural networks for object detection(这是最早证明神经网络可以用来回归目标坐标的一篇论文,这篇论文通过实验效果证明了neural networks learned features which are not only good for classification, but also capture strong geometric information)。那么模型的边框回归到底输出的是什么?我们采用4个数来表示一个边界框的坐标,[center x, center y, width, height] ,分别表示边界框的中心坐标以及宽高,但是后面的算法学习的其实是proposal box到gt box的变换系数。
(关于边框回归的发展历史参考One Stage目标检测算法可以直接回归目标的坐标是什么原理? - 叶不知的回答 - 知乎和深入理解one-stage目标检测算法 - 小小将的文章 - 知乎)
  下面我们以SSD模型的坐标回归为例(与前面的人脸检测算法一致的)来做说明,
先验框位置用表示,其对应的边界框用表示,那么边界框的预测值其实是相对于的转换值:

习惯上,我们称上面这个过程为边界框的编码(encode),预测时,你需要反向这个过程,即进行解码(decode),从预测值中得到边界框的真实位置:

SSD的先验框坐标是归一化到[0,1],这样它们独立于网格大小(SSD之所以这样是采用了不同大小的网格),因此得到的坐标是相对于图片的归一化结果,还需乘以图片尺寸,为了得到更精确的坐标还需进行NMS优化。对坐标进行log/exp变换,是为了防止出现负数。SSD的Caffe源码实现中还有trick,那就是设置variance超参数来调整检测值,设置超参数variance,用来对的的4个值进行放缩,此时边界框需要这样解码:

2、TensorRT的常用函数用法实例

TensorRT中已经为我们设计好了常用的Layers,可以通过https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/python_api/infer/Graph/Network.html查看。为了能够完成上面的公式,这里介绍几个:

  • add_input
  • add_scale
  • add_slice
  • add_constant
  • add_elementwise
  • add_unary
  • add_plugin_v2

2.1 add_input

add_input(self: tensorrt.tensorrt.INetworkDefinition, 
          name: str, 
         dtype: tensorrt.tensorrt.DataType, 
         shape: tensorrt.tensorrt.Dims) → tensorrt.tensorrt.ITensor

功能:为网络添加一个输入层
Parameters :  name  - 层的名字
              dtype - tensor的数据类型,如trt.float32
              shape - tensor的形状,必须小于2^30个元素
Returns:  一个新的tensor

2.2 add_scale

add_scale(self: tensorrt.tensorrt.INetworkDefinition, 
         input: tensorrt.tensorrt.ITensor, 
          mode: tensorrt.tensorrt.ScaleMode, 
         shift: tensorrt.tensorrt.Weights , 
         scale: tensorrt.tensorrt.Weights , 
         power: tensorrt.tensorrt.Weights) → tensorrt.tensorrt.IScaleLayer

功能:控制每个元素缩放大小,其计算公式为
             output → (input*scale+shift)^power

Parameters :  input - 输入tensor,最少有三个维度
               mode - 缩放的模式,如trt.ScaleMode.UNIFORM,表示作用于每一个元素
              shift - Weights变量,公式中的shift值
              scale - Weights变量,公式中的scale值
              power - Weights变量,公式中的power值

如果Weights变量可以得到,那么Weights变量的shape与mode模式相关:
        UNIFORM:形状等于1
        CHANNEL:形状为通道的维度
        ELEMENTWISE:形状与input的形状相同

Returns:  一个新的layer或None

2.3 add_slice

add_slice(self: tensorrt.tensorrt.INetworkDefinition, 
         input: tensorrt.tensorrt.ITensor, 
         start: tensorrt.tensorrt.Dims, 
         shape: tensorrt.tensorrt.Dims, 
        stride: tensorrt.tensorrt.Dims) → tensorrt.tensorrt.ISliceLayer

功能:tensor切片
Parameters :  input - 输入tensor
              start - 起始index
              shape - 输出shape
             stride - 切片步长

Returns:  一个新的layer或None

2.4 add_constant

add_constant(self: tensorrt.tensorrt.INetworkDefinition, 
            shape: tensorrt.tensorrt.Dims, 
          weights: tensorrt.tensorrt.Weights) → tensorrt.tensorrt.IConstantLayer

功能:添加一个常数层,可以把weight对象转变为layer进而变为tensor
Parameters :  shape - 形状
              weights - weight对象

Returns:  一个新的layer或None

2.5 add_elementwise

add_elementwise(self: tensorrt.tensorrt.INetworkDefinition, 
              input1: tensorrt.tensorrt.ITensor, 
              input2: tensorrt.tensorrt.ITensor, 
              op: tensorrt.tensorrt.ElementWiseOperation) → tensorrt.tensorrt.IElementWiseLayer

功能:二元操作
Parameters :  input1(input2) - 输入tensor,形状必须相等
              op - 二元操作符,在ElementWiseOperation中,如:
                    trt.ElementWiseOperation.PROD(乘积)
                    trt.ElementWiseOperation.SUM(加法)

Returns:  一个新的layer或None

2.6 add_unary

add_unary(self: tensorrt.tensorrt.INetworkDefinition,
         input: tensorrt.tensorrt.ITensor, 
         op: tensorrt.tensorrt.UnaryOperation) → tensorrt.tensorrt.IUnaryLayer
功能:一元操作
Parameters :  input1 - 输入tensor,
              op - 一元操作符,在UnaryOperation中,如:
                    trt.UnaryOperation.EXP(自然指数)
                    trt.UnaryOperation.LOG(自然对数)

Returns:  一个新的layer或None

通过上面6个基础的操作,可以进行大部分的运算。下面通过一个实例展示其用法:

题目:有a,b两个数组,形状为(1,1,4),将a的最后一个维度的前两个数与后两个数做不同的操作后,进行合并,最后在与b相加输出。

import tensorrt as trt
import numpy as np
import pycuda.driver as cuda
import pycuda.autoinit
TRT_LOGGER = trt.Logger()

def main():
    with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network:
        builder.max_workspace_size = 1<<30
        builder.max_batch_size = 1
        # 输入层
        input_layer = network.add_input(name="input_layer", dtype=trt.float32, shape=(1, 1, 4))

        # 每个轴都要指定stride
        a1 = network.add_slice(input_layer, (0, 0, 0), (1, 1, 2), (1, 1, 1))
        a2 = network.add_slice(input_layer, (0, 0, 2), (1, 1, 2), (1, 1, 1))

        # a1 的操作
        a1 = network.add_scale(a1.get_output(0), trt.ScaleMode.UNIFORM, \
                          scale=trt.Weights(np.array([2], dtype=np.float32)))
        a1 = network.add_unary(a1.get_output(0), trt.UnaryOperation.EXP)

        # a2 的操作
        a2 = network.add_scale(a2.get_output(0), trt.ScaleMode.UNIFORM, \
                               shift=trt.Weights(np.array([2], dtype=np.float32)))
        # 设置concat, 合并a1, a2
        a = network.add_concatenation([a1.get_output(0),a2.get_output(0)])
        a.axis = 2

        # 数组b
        b = np.ones((1, 1, 4), dtype=np.float32)*2
        b = network.add_constant((1, 1, 4), weights=trt.Weights(b))


        output = network.add_elementwise(a.get_output(0), b.get_output(0), trt.ElementWiseOperation.SUM)
        network.mark_output(output.get_output(0))

        engine = builder.build_cuda_engine(network)
        # Allocate host memory for inputs and outputs.
        h_input = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(0)), dtype=np.float32)
        h_output = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(1)), dtype=np.float32)

        # Allocate device memory for inputs and outputs.
        d_input = cuda.mem_alloc(h_input.nbytes)
        d_output = cuda.mem_alloc(h_output.nbytes)

        # Create a stream in which to copy inputs/outputs and run inference.
        stream = cuda.Stream()
    with engine.create_execution_context() as context:
          # Transfer input data to the GPU.
          a = np.ones((1, 1, 4))
          print('input:a', a)
          np.copyto(h_input, a.ravel())
          cuda.memcpy_htod_async(d_input, h_input, stream)
          # Run inference.
          context.execute_async(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
          # Transfer predictions back from the GPU.
          cuda.memcpy_dtoh_async(h_output, d_output, stream)
          # Synchronize the stream
          stream.synchronize()
          # Return the host output.
    return h_output

if __name__ == '__main__':
    tr = main()
    tr = np.reshape(tr, (1, 1, 4))
    print('tensorrt:',tr)
    # python验证
    a = np.ones((1, 1, 4))
    b = np.ones((1, 1, 4))*2
    a[:,:,:2] = np.exp(a[:,:,:2]*2)
    a[:, :, 2:] = a[:, :, 2:] + 2
    c = a + b
    print('python:',c)

输出:
input:a [[[1. 1. 1. 1.]]]
tensorrt: [[[9.389056 9.389056 5.       5.      ]]]
python : [[[9.3890561 9.3890561 5.        5.       ]]]

2.7 add_plugin_v2

add_plugin_v2(self: tensorrt.tensorrt.INetworkDefinition, 
            inputs: List[tensorrt.tensorrt.ITensor], 
            plugin: tensorrt.tensorrt.IPluginV2) → tensorrt.tensorrt.IPluginV2Layer
功能:注册插件
Parameters :  input1 - 输入tensor列表,
              plugin - 插件函数

Returns:  一个新的layer或None

除了已经编好的层之外,还有一些特别的插件可以自定义一些操作,官方有写好的插件,也可以自己定义自己的插件。目前主要介绍一些官方的插件:

import tensorrt as trt
import numpy as np
import pycuda.driver as cuda
import pycuda.autoinit
TRT_LOGGER = trt.Logger()
#加载插件库
trt.init_libnvinfer_plugins(TRT_LOGGER, '')
#获得所有支持的插件
PLUGIN_CREATORS = trt.get_plugin_registry().plugin_creator_list
for plugin_creator in PLUGIN_CREATORS:
    print(plugin_creator.name)

输出:
FancyActivation
ResizeNearest
Split
InstanceNormalization
GridAnchor_TRT
NMS_TRT
Reorg_TRT
Region_TRT
Clip_TRT
LReLU_TRT
PriorBox_TRT
Normalize_TRT
RPROI_TRT
BatchedNMS_TRT
以Clip_TRT和BatchedNMS_TRT作为例子介绍:

Clip_TRT

#使用插件,必须加载插件库
trt.init_libnvinfer_plugins(TRT_LOGGER, '')
###"Clip_TRT"
def get_trt_plugin(plugin_name):
        plugin = None
        for plugin_creator in PLUGIN_CREATORS:
            if plugin_creator.name == plugin_name:
                # 收集参数,各个参数的意义参考https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/c_api/_nv_infer_plugin_8h.html#af308dcae61dab659073bc91c6ba63a7e
                Clip_slope_field = trt.PluginField("clipMin", np.array([1.0], dtype=np.float32), \
                                                    trt.PluginFieldType.FLOAT32)
                Clip_slope_field2 = trt.PluginField("clipMax", np.array([3.0], dtype=np.float32),\
                                                    trt.PluginFieldType.FLOAT32)
                field_collection = trt.PluginFieldCollection([Clip_slope_field,Clip_slope_field2])
                plugin = plugin_creator.create_plugin(name=plugin_name, field_collection=field_collection)
        return plugin


def main():
  with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network:
    builder.max_workspace_size = 1 << 30
    input_layer = network.add_input(name="input_layer", dtype=trt.float32, shape=(5, ))
    # 加入plugins层
    output = network.add_plugin_v2(inputs=[input_layer], plugin=get_trt_plugin("Clip_TRT"))

BatchedNMS_TRT

  • 参考https://github.com/NVIDIA/TensorRT/tree/master/plugin/batchedNMSPlugin
  • 这个插件可以在GPU上使用加速NMS过程,有两个输入boxes input 和scores input:

boxes input
boxes input的形状shape是[batch_size, number_boxes, number_classes, number_box_parameters],number_box_parameters表示box的定位信息[x_min, y_min, x_max, y_max]。例如,如果你的模型输出在一幅图上产生了8732个候选框,有100个预测类,则boxes input的形状shape为[8732, 100, 4]
scores input
scores input的形状shape为[batch_size, number_boxes, number_classes],表示各个类别的概率。

  • 这个插件会产生4个输出:

1、num_detections : shape=[batch_size, 1], 最后一个维度是一个INT32的标量,表示有效的探测个数,可以少于预设的keepTopK,也表示下面三个对应的输出都是有效的。
2、nmsed_boxes : [batch_size, keepTopK, 4],NMS后的box坐标。
3、nmsed_scores : [batch_size, keepTopK],对应的概率值。
4、nmsed_classes : [batch_size, keepTopK],对应的类别。

  • 参数:
  • 使用实例:
trt.init_libnvinfer_plugins(TRT_LOGGER, '')
# "BatchedNMS_TRT"
def get_trt_plugin(plugin_name):
        plugin = None
        for plugin_creator in PLUGIN_CREATORS:
            if plugin_creator.name == plugin_name:

                shareLocation = trt.PluginField("shareLocation", np.array([1], dtype=np.int32), \
                                       trt.PluginFieldType.INT32)
                backgroundLabelId = trt.PluginField("backgroundLabelId", np.array([-1], dtype=np.int32),\
                                                    trt.PluginFieldType.INT32)
                numClasses = trt.PluginField("numClasses", np.array([1], dtype=np.int32), \
                                                    trt.PluginFieldType.INT32)
                topK = trt.PluginField("topK", np.array([500], dtype=np.int32), \
                                             trt.PluginFieldType.INT32)
                keepTopK = trt.PluginField("keepTopK", np.array([10], dtype=np.int32), \
                                       trt.PluginFieldType.INT32)
                scoreThreshold = trt.PluginField("scoreThreshold", np.array([0.7], dtype=np.float32),\
                                                    trt.PluginFieldType.FLOAT32)
                iouThreshold = trt.PluginField("iouThreshold", np.array([0.3], dtype=np.float32), \
                                                 trt.PluginFieldType.FLOAT32)
                isNormalized = trt.PluginField("isNormalized", np.array([1], dtype=np.int32), \
                                                trt.PluginFieldType.INT32)
                field_collection = trt.PluginFieldCollection([shareLocation, backgroundLabelId,
                                                              numClasses, topK, keepTopK,
                                                              scoreThreshold, iouThreshold,
                                                              isNormalized])
                plugin = plugin_creator.create_plugin(name=plugin_name, field_collection=field_collection)
        return plugin
output = network.add_plugin_v2(inputs=[location.get_output(0),scores.get_output(0)], \
                            plugin=get_trt_plugin("BatchedNMS_TRT"))
print(output.get_output(1).shape)
network.mark_output(output.get_output(1))

3、将人脸检测的后处理操作加入tensorrt模型中

  通过上面介绍的各种插件,可以把上一节中人脸检测模型的后处理部分整合到一起,一方面可以使模型更简洁方便部署,另一方面也可与后面的人脸识别模型无缝的联结在一起。

你可能感兴趣的:(Jetson Nano搭建人脸检测系统: (四)后处理优化)