pytorch---onnx---tensorflow踩坑笔记

pytorch—onnx—tensorflow踩坑笔记

首先我转的模型是centertrack这个模型,其实总的来说这个模型还是比较简单的,但是由于其中有一个DCN卷积在onnx和tensorflow中不支持的自定义算子,所以有很多坑都是围绕他进行的。

首先就是对这个DCN卷积部分的处理,我使用了一个插件的形式来方便插入到onnx中,这是由于onnx支持自定义算子的实现。

插件部分:(类似于这样的插件定义的形式)

###############################################  修改的部分 ############################################################
    @staticmethod
    def symbolic(g, input, offset_mask, weight, bias, stride, padding, dilation, deformable_groups):
        return g.op("Plugin", input, offset_mask, weight, bias, name_s="DCNv2", info_s=json.dumps({
            "dilation": dilation,
            "padding": padding,
            "stride": stride,
            "deformable_groups": deformable_groups
        }))

    ###############################################  ---------- ############################################################

另外最后要记得把输出的字典形式改成数组的形式,因为onnx不支持字典的输出。

当然实际转模型的时候还是有很多环境的问题的,这就需要你不断的建立各种适配的环境然后进行尝试了,我的运气比较好一个环境走遍天下没出太多问题。

我的环境是:
pytorch=1.1
cuda=10.0
cudnn=7.6.5
onnx=1.1(1.6也尝试过,没啥区别,照样没有报错,不过最后是用1.1成功的,1.6没试过不清楚)

然后就是onnx模型转tensorflow了,这个就比较反人类了,没办法由于我司自研的底层架构,所以只能用tensorflow了,不能用tensorRT。。。。

首先打开转好的onnx模型图,看到是没有什么大问题的,然后就按照网上的方法进行转了。

先安装onnx-tf的包直接pip就好(当然最好虚拟环境,因为你不清楚你最后是什么环境能成功。。。。我运气好,一个环境就好了,哈哈)

我的环境:
pytorch---onnx---tensorflow踩坑笔记_第1张图片
然后pip install onnx-tf(如果不行再去这个网站下载到本地运行https://www.cnpython.com/pypi/onnx-tf)

然后运行一个脚本

import onnx
from onnx_tf.backend import prepare

def onnx2pb(onnx_input_path, pb_output_path):
    onnx_model = onnx.load(onnx_input_path)  # load onnx model
    tf_exp = prepare(onnx_model)  # prepare tf representation
    tf_exp.export_graph(pb_output_path)  # export the model

if __name__ == "__main__":
    onnx_input_path = 'coco_tracking.onnx'#这里是你的onnx文件的地址
    pb_output_path = 'pb/coco_track.pb'#这里是你的pb文件的地址
 
    onnx2pb(onnx_input_path, pb_output_path)

一般情况之下,你是不可能看到successful的字眼的。。。

下面就说说我碰到的情况吧

1、当然就是我的自定义的插件不支持
所以我暂时先使用了围魏救赵的方法,将DCN替换成了普通的Add+卷积的形式(因为DCN有四个输入一个输出(两个卷积的输入,还有权重和bias)),所以你得先用Add把两个卷积的输入接进来,但是这时候就会伴随着出现一个问题,一个节点替换成两个节点,那么中间的节点之间怎么连接呢?节点序号是连续的,你这样的话中间的节点不就冗余了呢。。。所幸是有解决办法的,你可以用几个不同的字符串作为中间的连接节点。

str_list = ['q','w','e','r','t','y','u','i','o','p','a','s','d','f','g','h']

然后报了一个困扰了我一天的错误。。。
在这里插入图片描述
拓扑排序不对?怎么回事,图里面是连起来的啊,怎么会不对呢,我和我的小伙伴们想了很多解决方案,比如说,1、扩大节点之间的间隔然后再插入节点,但是这样还是不行。2、舍弃Add节点,一换一的策略,fail 3、不添加新的节点直接在原插件节点上进行修改参数值,fail 最后发现是我的代码写错了。。。

node_without_padding = onnx.helper.make_node(
                    'Conv',
                    inputs=[i0, i2,i3],
                    outputs=[o0],
                    kernel_shape=[3, 3],
                    # Default values for other attributes: strides=[1, 1], dilations=[1, 1], groups=1
                    pads=[1, 1, 1, 1],
                )

        graph.node.remove(node)
        #graph.node.append(node_without_padding)
        graph.node.insert(idx,node_without_padding)

看到了吧,上面的append换成insert就好了,也对啊insert是在节点的地方插入,而append是在节点后添加,所以图里面虽然看不出问题,但是实际上内部还是会有区别的,以前的时候没有注意list的这个问题,没想到这个小问题愁了我整整一天。。。(所以说基础规范很重要!!!)

接下来:
在这里插入图片描述
Add维度对不上,这时候我意识到一个重要的问题,我的Add用的不对,因为DCN实际上是用两个卷积之间的通道拼接的怎么能直接相加呢,唯独对不上啊。。。。
所以我把我上面的Add改成了concat。
在这里插入图片描述

好消息是我们又改了一个bug,坏消息是坑还是很多啊!!!

看错误似乎是我们的反卷积部分出现问题了,后来咨询了一下公司的大佬,大佬一针见血的指出了是onnx的bug,ConvTranspose函数的group不支持高维的,所以应该改成group=1,下面的权重信息也得进行pad成grup的维度。

好吧。。。改代码。这里有一个代码的小问题,你修改参数以后一定要记得把你修改的参数再赋值给原来的传入参数(注意是最原来的传入参数!!!)

好吧又来了新问题了
在这里插入图片描述
他怎么又出现了??
好吧,又是大佬找到的问题的出发地,32-28=4,所以推测出来是不是我的修改DCN卷积的时候忘记pad了呢?结果还真的是。。。

这下终于看到了successful的字眼了,真的不容易,总的来数还是自己的问题比较多一点,所幸我人品好没有碰到环境的问题。

你可能感兴趣的:(深度学习,tensorflow,python,深度学习)