Chainer入门

1. 为什么要Chainer?

大多数现有的深度学习框架都是基于”Define-and-Run“的方案。也就是说,首先要有一个预先被定义的网络结构,然后用户才能给这个网络去喂数据。因为所有的网络都是在前向/后向传播计算完成之前就定义好的了,所以所有的逻辑必须以数据的形式嵌入到网络结构中去。

然而,Chainer采纳了“Define-by-Run”的方案,比如网络是通过实际的前向计算在运行中定义的。更确切地说,Chainer存储计算的历史而不是编程逻辑。这个策略使我们能够充分利用Python中编程逻辑的力量。例如,Chainer不需要任何魔法来将条件和循环引入网络定义。定义方案是Chainer的核心概念。

总而言之,Define-and-Run“的方案是结构领着数据走,有了结构才能够通过喂数据来训练网络。而Define-by-Run”的方案是数据领着结构走,有了数据参数的定义才有网络的概念,数据走到哪,网络延伸到哪。

2. 一个简单的网络搭建

2.1 前向传播/反向传播的计算

x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))

y=x**2-2*x+1

y.grad=np.ones((2,3),dtype=np.float32)

y.backward()

x.grad

在这个例子中就可以看出来,并没有先预先定义一个结构。而是有了x,y的变量,通过调用y.backward()来实现反向传播的计算。

2.2 Links

为了写神经网络,我们不得不用一些参数去把不同的函数结合起来并且优化这些参数。所以,就需要用Links来做这件事情。Link只是一个能容纳参数的对象。

一个最经常使用的links就是linear link。它代表了数学表达式f(x) = Wx + b.  

f=L.Linear(3,2)

这个代表的是一个输入为三维,输出为二维的线性方程。此外,大部分的方程和links都只接受mini-batch的输入,也就是说,第一维被默认为batch的维度,所以,在上面的例子中,输入必须是有着(N,3)的形状。

所有的参数都以属性的形式存放。在上面的例子中,W和b存放在f的属性中,可以通过:

>>>f.W.data

array([[ 1.01847613,  0.23103087,  0.56507462],[ 1.29378033,  1.07823515, -0.56423163]], dtype=float32)

>>>f.b.data

array([ 0.,  0.], dtype=float32)

默认的,W和b都是随机初始化。

所以,合起来,一个完整的例子如下:

>>>x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))

>>>y=f(x)

>>>y.data

array([[ 3.1757617 ,  1.75755572],[ 8.61950684,  7.18090773]], dtype=float32)

梯度这个参数通过调用backward()方法来实现。注意的是,这个梯度是被累加起来的。所以每次调用之前,需要对梯度进行清零操作。

>>>f.cleargrads()

所以完整的例子是:

>>>y.grad=np.ones((2,2),dtype=np.float32)

>>>y.backward()

>>>f.W.gradarray([[ 5.,  7.,  9.],[ 5.,  7.,  9.]], dtype=float32)

>>>f.b.gradarray([ 2.,  2.], dtype=float32)

2.3 用chain来写一个模块

大部分的神经网络都包含许多个links。比如,一个多层感知起由多个线性层组成。接下来就写一个这个的例子:

>>>classMyChain(Chain):

          ...def__init__(self):

             ...super(MyChain,self).__init__(

                     ...l1=L.Linear(4,3),

                     ...l2=L.Linear(3,2),

                      ...)

            .....def__call__(self,x):

                   ...h=self.l1(x)

                  ...returnself.l2(h)

2.4 优化器

>>>model=MyChain()

>>>optimizer=optimizers.SGD()

>>>optimizer.use_cleargrads()

>>>optimizer.setup(model)

setup()方法只是为优化器提供一个link。需要改梯度衰减值之类的需要调用:

>>>optimizer.add_hook(chainer.optimizer.WeightDecay(0.0005))

使用优化器

方法1:

>>>x=np.random.uniform(-1,1,(2,4)).astype('f')

>>>model.cleargrads()

>>># compute gradient here...

>>>loss=F.sum(model(chainer.Variable(x)))

>>>loss.backward()

>>>optimizer.update()

方法2:

>>>deflossfun(arg1,arg2):

...# calculate loss

...loss=F.sum(model(arg1-arg2))

...return loss

>>>arg1=np.random.uniform(-1,1,(2,4)).astype('f')

>>>arg2=np.random.uniform(-1,1,(2,4)).astype('f')

你可能感兴趣的:(Chainer入门)