范数在非线性系统中的应用

一、通过p范数门(Lp-norm gate)的深度网络的快速训练方法

提出了一种灵活的p范数门控的方案,它允许用户控制流量,从而加快学习的速度。

增加信息传播的线性程度的方法是通过门控(gating),即,门是额外的控制单元,让部分信息通过通道。

例如:1.长—短周期记忆  (LSTM)

           2.封闭复用单元      (GRU)

例:h_t=\alpha_1\hat{h_t}+\alpha_2h_{t-1}

其中:\alpha_1是控制非线性项的参数,\alpha_2是控制线性部分的门,h_t是激活函数,{\color{Red} \alpha_1,\alpha_2\in[0,1]}

那么为什么要分线性部分和非线性的部分呢?

因为,非线性部分不断将输入转变为更复杂的输出,而线性部分保留输入的一部分。


接下来研究\alpha_1\alpha_2之间的关系

 在残差网络(ResNet)中的\alpha_1=\alpha_2=1(残差:观测值与估计值的差)

在LSTM中, \alpha_1与 \alpha_2没有一个确定的关系。

在GRU中,有\alpha_1+\alpha_2=1,这个关系可以看出,\alpha_1到达1的速度与\alpha_2到达0的速度相等防止信息过早传递。

提出了一种更加灵活的选通方案——{\color{Red} (\alpha_1^p+\alpha_2^p)^\frac{1}{p}=1},引入一个额外的超控制参数p, 可以用来调节两个参数之间的关系,通过调节p值的大小发现,当p的值增大,网络学习的速度会更快。

这里使用到的范数只是一种参数之间的度量关系,并没有实际的应用到控制系统中。

 二、压缩感知(Compressed Sensing)应用于信号与图像的恢复中。

在稀疏优化中,出现了L0与L1约束,所以其他的Lp范数也可以很自然的出现;对于一些读者来说,使用p<1的范数可能看起来很奇怪;现在人们已经清楚具有如此小的p值的Lp范数是稀疏性的自然数学度量。

三、稀疏模型求解优化

对于l_0范数来说,它本身的意义是集合中非0元素的个数。

问题描述:a=argmin||a||_0, st,||x-Da||_2^2<\varepsilon

考虑线性方程组求解:

AX=b

其中 x\in R^{n\times1},b\in^{m\times1},A^{m\times n} 

b的维数远小于x的维数,即m>>n,因此方程组中存在无穷解,但是真正有用的是稀疏解,即原始信号中拥有最小的零元素。

例如:{\color{Blue} x=[0,0,1,1,...,1,0,0]}

精确解只有10%的元素非零,所以解中非零元素最小的就是最优解,即:

min||x||_0,st,Ax=b,

但是||x||_0求解复杂(不连续,只能是整数)

所以定义||x||_1=\sum_{i=1}^n|x_i|去替换||x||_0

得到:

min||x||_1

 

你可能感兴趣的:(深度学习)