3.8 SamplePlugin:Implementing A Custom Layer
SamplePlugin例程展示了如何在TensorRT中新增一个用户自定义层。例程中实现了如何将MNIST例程中原本直接cuBLAS库实现的最后全卷积层进行替换。
注:当前Plugin层只支持FP32精度。
本例中解释的关键概念包括:
Ø 如何创建一个用户自定义层
Ø 如何利用NvCaffeParser集成用户自定义层,并导入runtime。
每个TensorRT步骤操作都需要利用pluginAPI中实现。下面总体介绍了那些方式与每个步骤相关。
Whencreating the network:
在网络构造过程中,如果ITensor::getDimension()在设置层输出大小,或者其他后面的层时候被调用,这些方式会被使用。此外,当builder运行时也会被调用。
Ø getNbOutputs()
Ø getOutPutDimensions()
Bythe builder:
Ø configure()
Ø getWorkspaceSize()
Atruntime:
Ø initialize()当engine context构建的时候。
Ø enqueue()在前向运算时。
Ø terminate()当销毁engine context时。
在serialization时:
Ø getSerializationSize()
Ø serialize()
定义网络时,TensorRT需要知道层有哪些输出。
注:例程中的维度时没有batchsize的,与ITensor::getDimensions()返回的维度方式相似。例如,对于一个典型的3维度卷积,维度以{C,W,H}格式给出,返回的值也需要{C,W,H}格式。
下列方式了输出层的内容:
int getNbOutputs() const override
{
return 1;
}
getOutputDimensions函数有三个参数:output index,input dimensions与number of inputs。后面两个参数已经在TensorRT内部计算好了,所以你只需要根据输入维度与现有的索引数,计算输出维度即可。
Dims getOutputDimensions(int index, const Dims* inputDims, int
nbInputDims) override
{
assert(index == 0 && nbInputDims == 1 &&inputDims[0].nbDims
== 3);
assert(mNbInputChannels == inputDims[0].d[0] *
inputDims[0].d[1] *
inputDims[0].d[2]);
return DimsCHW(mNbOutputChannels, 1, 1);
}
Builder通过调用网络的configure()来根据输入选择算法。再更复杂的情况下,用户可以根据输入维度决定使用哪种卷积算法。
Configure()的方式只有在build时会调用,所有相关的设置都需要在运行时,保存在plugin的参数中,并进行serialized与de-serialized。
3.8.5 Workspace
TensorRT可以在层执行过程中提供临时的存储空间,为了降低内存使用率,内存空间在层间是共享的。TensorRTbuilder调用getWorkspaceSize()来决定空间需求。本例中没有使用workspace。如果需要使用workspace,workspace将在IExecutionContext创建时分配空间,在运行时传到enqueue()中。
同时用户也可以在GPU上申请运行需要的GPU显存,并且利用destructor释放,在回调中返回0。在TensorRT中使用workspace的优势是在运行时可以多个plugin层共享。
3.8.6 Resource Management
在进行auto-tuning或者运行时创建销毁IExecutionContent,builder调用initialize()与terminate()。他们被用来申请与释放层执行过程中需要的资源。此例中,调用cuDNN与cuBLAS以及一些其他cuDNNtensor的操作。
int initialize() override
{
CHECK(cudnnCreate(&mCudnn));
CHECK(cublasCreate(&mCublas));
CHECK(cudnnCreateTensorDescriptor(&mSrcDescriptor));
CHECK(cudnnCreateTensorDescriptor(&mDstDescriptor));
return 0;
}
virtual void terminate() override
{
CHECK(cublasDestroy(mCublas));
CHECK(cudnnDestroy(mCudnn));
}
当执行层实现时,使用enqueue()方式。传到enqueue()中的batchsize是build时最大的batchsize,也可以比这个小。
注:除了batchsize,维度信息没有传到enqueue()。因此,运行时需要其他维度信息,例如,输出的个数,输出的个数,需要作为层数据serialized。
virtual int enqueue(int batchSize, const void*const *inputs,
void**
outputs, void* workspace, cudaStream_t stream)override
{
int nbOutputChannels = mBiasWeights.count;
int nbInputChannels = mKernelWeights.count /
nbOutputChannels;
float kONE = 1.0f, kZERO = 0.0f;
cublasSetStream(mCublas, stream);
cudnnSetStream(mCudnn, stream);
CHECK(cublasSgemm(mCublas, CUBLAS_OP_T, CUBLAS_OP_N,
nbOutputChannels, batchSize, nbInputChannels,&kONE,
reinterpret_cast
float*>(mKernelWeights.values),
nbInputChannels,
reinterpret_cast
nbInputChannels, &kZERO,
reinterpret_cast
nbOutputChannels));
CHECK(cudnnSetTensor4dDescriptor(mSrcDescriptor,
CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, 1,nbOutputChannels, 1, 1));
CHECK(cudnnSetTensor4dDescriptor(mDstDescriptor,
CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batchSize,nbOutputChannels,
1, 1));
CHECK(cudnnAddTensor(mCudnn, &kONE,mSrcDescriptor,
mBiasWeights.values, &kONE, mDstDescriptor,outputs[0]));
return 0;
}
层参数可以与余下的网络一起进行序列化,序列化系统调用下列函数:
virtual size_t getSerializationSize() override
{
// 3 integers (number of input channels, number ofoutput
channels, bias size), and then the weights:
return sizeof(int)*3 +mKernelWeights.count*sizeof(float) +
mBiasWeights.count*sizeof(float);
}
virtual void serialize(void* buffer) override
{
char* d = reinterpret_cast
write(d, mNbInputChannels);
write(d, mNbOutputChannels);
write(d, (int)mBiasWeights.count);
serializeFromDevice(d, mKernelWeights);
serializeFromDevice(d, mBiasWeights);
assert(d == a + getSerializationSize());
}
反序列化通过下列构造器实现:
// create the plugin at runtime from a byte stream
FCPlugin(const void* data, size_t length)
{
const char* d = reinterpret_cast
mNbInputChannels = read
mNbOutputChannels = read
int biasCount = read
mKernelWeights = deserializeToDevice(d,mNbInputChannels *
mNbOutputChannels);
mBiasWeights = deserializeToDevice(d, biasCount);
assert(d == a + length);
}
有三个在网络中新增plugin方式:
1、 定义网络时使用INetwork::addPlugin()函数。
2、 使用parser创建网络。
3、 在build后反序列化网络。
AddPlugin()使用方式见TensorRT API。
使用NvCaffeParser新增用户自定义网络时,通过nvcaffeParser::IPluginFactory结构创建一个工厂,将实例传到ICaffeParser::parse()中。CreatePlugin()接受层名称,NVCaffe模型文件中提取的一系列权重,这些参数通过层constructor传入。名称是用来区分多个插件的依据,目前除了网络权重不能提取其他NVCaffe网络描述,因此,这些参数都必须在factory中指定。
bool isPlugin(const char* name) override
{
return !strcmp(name, "ip2");
}
virtual nvinfer1::IPlugin* createPlugin(const char*layerName,
const
nvinfer1::Weights* weights, int nbWeights) override
{
// there's no way to pass parameters through from themodel
definition, so we have to define it here explicitly
static const int NB_OUTPUT_CHANNELS = 10;
assert(isPlugin(layerName) && nbWeights == 2&&
weights[0].type ==
DataType::kFLOAT && weights[1].type ==DataType::kFLOAT);
assert(mPlugin.get() == nullptr);
mPlugin = std::unique_ptr
nbWeights, NB_OUTPUT_CHANNELS));
return mPlugin.get();
}
为了在运行时整合用户自定义网络,使用nvinfer1::IPlugin接口,将实例的结构传到IInferRuntime::deserializeCudaEngine()。
// deserialization plugin implementation
IPlugin* createPlugin(const char* layerName, constvoid*
serialData,
size_t serialLength) override
{
assert(isPlugin(layerName));
assert(mPlugin.get() == nullptr);
mPlugin = std::make_unique
serialLength);
return mPlugin.get();
}
当使用NvCaffeParser构建,运行时反序列化,层实现假设数据通过NVCaffeParser的权重或者运行时的二进制流传送直至调用initialize()函数,允许数据复制到GPU中。