MXNET采坑记

卷积神经网络的输出单元数计算方法


`Conv2D`要求输入的x的形状为`(batch_size, in_channels, height, width)`,设输出的形状为`(batch_size,channels,(heiight-kernel_size)/strides + 1,(width-kernel_size)/strides + 1)`

定义参数的方式


`self.params.get`方法传入的参数为`get(self, name, **kwargs)`,根据初始化时为参数取得名字获取参数,`**kwargs`可以接受(key,value)格式传入的参数,`shape`规定参数的维度,`init`规定该参数初始化的方法,`dtype`定义该参数的数据类型,`allow_deferred_init`规定是否允许延后初始化

 `*args`与`**kwargs`


`allow_deferred_init`什么是延后初始化

延后初始化是指当第一次传入x进行前向计算时,根据x的shape,才将参数初始化,而不是在`initialize`的时候初始化

举例来说,定义如下网络


实际上Dense执行的操作为


输入的x的shape是(3,4),输入的weight的shape为(5,4),将weight转置之后与x进行矩阵乘法,得到操作的结果

weight的第一个维度是该层的神经元个数`units`,第二个维度是输入的x的第二个维度值`in_units`

可以看到`Dense`在定义的时候并没有声明`in_units`只有`units`,这说明网络并不知道开发者需要多大的weight,所以等到第一个数据传入的时候才会将参数初始化,这个叫做延后初始化

`allow_deferred_init=True`表示该参数支持延后初始化,当该字段设置False时,必须传入`in_units`

如果设置延后初始化,不能够在第一次数据传入之前调用定义的参数,比如获取参数的data,shape之类的操作,因为这个时候还不知道参数

不同的参数如何设置不同的初始化方法


如果直接调用nn包下面的神经网络层,直接定义`weight_initializer`和`bias_initializer`字段分别设置权重和偏差初始化方法;

如果用`self.params.get`方法初始化参数,则设置`init`字段

如果网络中既有nn包下面的网络层,又有自己定义的网络层,在初始化的时候可以直接使用`net.initialize()`将所有参数初始化

比如我自己定义了一个叫做`Dense1`的神经网络层


其实,这个Dense1就是一个简化版的Dense层,下面定义自己的网络并进行初始化


在执行initialize的时候可以将自己定义的参数和mxnet自带的神经网络层一起初始化

mxnet在调用asscalar()函数时经常会报错outofmemory

`ndarray`格式的数据的`shape`为`(1,)`时,可以通过调用`asscalar()`将数据转换成数值类型,但是在网络计算的过程中常常会遇到outofmemory的错误,这个错误并不是这个语句报错,毕竟数据的shape只有(1,),怎么会报错,而是因为调用该函数的数据经过了大量的计算,而这一系列的计算过程中,涉及超出内存限制的数据,导致内存不足。

这时候一般是网络的参数比较多,可以将网络的节点数降低,或者网络层数降低,直到不会出现错误

 mxnet 的HybridBlock与Block有什么区别

理解内容主要参考

HybridBlock类hybrid_forwar()函数解析

仅仅说自己已经理解并应用的部分

`HybridBlock`支持输入的参数有位置式参数和关键字参数,而`Block`支持

位置式参数,位置式参数就是指`*args`,关键字参数是指`**kwargs`

其中的一个好处就是`HybridBlock`重写了`forward`函数,而我们只需要重写`hybrid_forward`函数,在重写该函数的时候可以将我们在初始化函数中定义的参数的关键字传入,因为该类重写的`forward`函数将会读取定义的参数,并将参数自动传入到`hybrid_forward`中


所以`hybrid_forward`可以根据关键字获取数据

比如下面的例子中,可以利用在`__init__`中定义的`weights`和`bias`作为位置参数传入前向网络中


你可能感兴趣的:(MXNET采坑记)