CS重建问题:正则化项(残差网络引入)和近端算子
残差网络:测量有噪图像与干净图像之间的距离。
为什么不用现成的距离来计算?
处理近端算子:扩展残余通道注意网络
近端算子能将扭曲的图像映射到干净的图像集中。
自适应近邻选择策略网络是干嘛的?
提高CS恢复性能:提出了一种自集成策略
图像压缩: y = Φ x y=\Phi x y=Φx,其中y的维数小于x的维数,所以图像压缩是一种降维
不适定逆问题的优化:
x = a r g min x F ( x ) + λ G ( x ) , x=arg\min\limits_x F(x)+\lambda G(x), x=argxminF(x)+λG(x),
其中 F ( x ) F(x) F(x)和 G ( x ) G(x) G(x)分别是置信度项和正则化项。正则化项也是惩罚因子,用来解决过拟合。
对于hand-crafted 正则化,BM3D-CS和NLR-CS因为高性能,所以常视为基准方法。
近端梯度下降:通过在投影步长和梯度下降步长之间交替解耦置信度项和正则化项。从 x 0 x^0 x0开始,步长为 α \alpha α,PGD的过程如下:
v k = ▽ F ( x k ) , v^k=\bigtriangledown F(x^k), vk=▽F(xk),
x k + 1 = P r o x ( x k − α v k ) , x^{k+1}=\mathbf{Prox}(x^k-\alpha v^k), xk+1=Prox(xk−αvk),
P r o x ( x ~ ) ( x ~ ∈ C ) \mathbf{Prox}(\tilde{x})(\tilde{x}\in C) Prox(x~)(x~∈C)使得 ∥ x ~ − x ˉ ∥ \Vert\tilde{x}-\bar{x}\Vert ∥x~−xˉ∥是最小的。 F ( ⋅ ) F(\cdot) F(⋅)的梯度在点 x k x^k xk处表示为
▽ F ( x k ) = Φ T ( Φ x k − y ) . \bigtriangledown F(x^k)=\Phi^T(\Phi x^k -y). ▽F(xk)=ΦT(Φxk−y).
有
v k = γ k − 1 v k − 1 + ▽ F ( x k ) , v^k=\gamma^{k-1}v^{k-1}+\triangledown F(x^k), vk=γk−1vk−1+▽F(xk),
x k + 1 = P r o x ( x k − α v k ) . x^{k+1}=\mathbf{Prox}(x^k-\alpha v^k). xk+1=Prox(xk−αvk).
散度项估计(快速蒙特卡洛近似方法):
▽ P r o x ( x ~ ) = ϵ T ( P r o x ( x ~ + ϵ ) − P r o x ( x ~ ) ) , ( ϵ ∼ N ( 0 , 1 ) 是一个标准正态随机向量 ) \triangledown\mathbf{Prox}(\tilde{x})=\epsilon^T(\mathbf{Prox}(\tilde{x}+\epsilon)-\mathbf{Prox}(\tilde{x})),\\(\epsilon\sim N(0,1)是一个标准正态随机向量) ▽Prox(x~)=ϵT(Prox(x~+ϵ)−Prox(x~)),(ϵ∼N(0,1)是一个标准正态随机向量)
根据 G ( ⋅ ) G(\cdot) G(⋅)估计的失真距离将二维图像空间划分为多个子空间。在PMGD中,根据中间图像 ( x k − α v k ) (x^k-\alpha v^k) (xk−αvk)所属的子空间选择相应的近端算子 P r o x ( ⋅ ) \mathbf{Prox}(\cdot) Prox(⋅)。也就是说, G ( ⋅ ) G(\cdot) G(⋅)获得的失真距离 σ ^ \hat{\sigma} σ^决定了近端算子的权重,即 P r o x ( ⋅ ) = P σ ^ ( ⋅ ) \mathbf{Prox}(\cdot)=P_{\hat{\sigma}}(\cdot) Prox(⋅)=Pσ^(⋅)。
故使用训练有素的残差回归网络,来确定畸变距离 σ \sigma σ。学习的近端算子类似于一个去噪器,用于removes aliasing artifacts。
正则化项是噪声level,并用残差回归网络来测量受损图像的噪声level σ k \sigma^k σk。假设原始图像 x 0 x_0 x0位于集合 C C C中,可以直观地将其视为原始图像的流形。考虑到集合 C C C之外的任何损坏图像 x ~ \tilde{x} x~,将测量出 x ~ \tilde{x} x~和原始图像集合 C C C之间的某种失真距离。(这个和最优传输里面那个好像,完了去看看!)
噪声level 估计网络分为残差运算和回归运算。 w , h w,h w,h和 c c c分别是输入图像的宽度、高度和通道,则噪声level 估计网络可以表示为
σ ^ k = R 1 ( R 2 ( ( x k − α v k ) ) − ( x k − α v k ) ) . \hat{\sigma}^k=R_1(R_2((x^k-\alpha v^k))-(x^k-\alpha v^k)). σ^k=R1(R2((xk−αvk))−(xk−αvk)).
R 2 ( ⋅ ) R_2(\cdot) R2(⋅)表示提取 w × h × 64 × 64 w\times h\times 64\times 64 w×h×64×64大小特征的两个叠加残差块, R 1 ( ⋅ ) R_1(\cdot) R1(⋅)指通过步长为 2 2 2的 6 6 6个卷积、一个平均pooling ,以及一个最终全连接层将提取的特征映射到正则化值。(Fig.4(a))
下图说明了噪声level估计器的精度,其中底面真值残差系数由 x 0 − ( x k − α v k ) x_0-(x^k-\alpha v^k) x0−(xk−αvk)计算,ground-truth密度由 ∥ x 0 − ( x k − α x k ) ∥ / n \sqrt{\Vert x_0 -(x^k -\alpha x^k)\Vert /n} ∥x0−(xk−αxk)∥/n计算,估计密度由 G ( x k − α v k ) G(x^k - \alpha v^k) G(xk−αvk)计算。通过比较直方图可以看出,我们估计的密度很好的拟合了ground-truth剩余密度。
PMGD的核心功能是将失真图像映射到原始图像集 C C C。基于噪声level估计器 G G G,可以学习一个投影函数 P P P,它将损坏图像映射到原始图像集 C C C。
在设计中采用了信道注意力机制、扩展卷积和多跳连接。Fig.4(b)中说明了近端算子的拟议网络结构,该网络主要由 16 16 16个堆叠扩张信道注意层(扩张CAL)和多个跳跃连接组成。(CAL就是信道注意层)
在卷积层中,每个通道方面的特征代表由相应滤波器提取的信号的不同成分。一些通道侧重于平面区域,而一些通道则更侧重于纹理或边缘区域。一种直观的策略是自适应地调整通道特征的权重,而不是对它们一视同仁。信道注意机制允许网络有效利用特征渠道之间的相互依赖性。如果将 f i f_i fi表示为第 i i i个CAL的输入特征,则CAL操作可以表示为
f i + 1 = f i + ( R i ∘ C i ) ( f i ) ⋅ C i ( f i ) , f_{i+1}=f_i + (R_i\circ C_i)(f_i)\cdot C_i(f_i), fi+1=fi+(Ri∘Ci)(fi)⋅Ci(fi),
其中 C i C_i Ci表示叠加的扩展卷积层,以提取中间特征, R i R_i Ri表示一系列降采样操作,以提取信道重缩放因子。CAL可以抑制一些类似噪声的结构。因此,我们使用信道注意机制来增强网络的特征提取能力。
此外,八个扩张的CAL被分成一个扩张的残余通道注意块(DRCAB),其中扩张CAL的相对扩张因子被设置为1、2、3、4、4、3、2和1。扩张卷积可以扩大receptive field的容量,而不会增加滤镜权重的数量。每个扩展的CAL中都有一个短的跳跃连接,每个扩展的RCAB中有一个中等的跳跃连接以及从整个网络的开始到结束的长的跳跃连接。这种递归剩余连接设计允许信息通过多条路径流动。
下图展示了设计的DRCAN的有效性。可以看出,使用 P σ ^ k ( ⋅ ) P_{\hat{\sigma}^k}(\cdot) Pσ^k(⋅)后,正则化项G的值降到了一个较小的值,即符合近端算子的功能。
自集成策略为了增强模型的潜在CS重建性能,该策略广泛用于单图像超分辨率。我们在图像上应用旋转和翻转,以生成额外的七个增强输入 T i ( x t ) T_i(x_t) Ti(xt),其中, T i T_i Ti表示几何变换,如下图所示。然后,我们在每个 T i ( x t ) T_i(x_t) Ti(xt)上应用深度网络 P σ ^ k ( ⋅ ) P_{\hat{\sigma}^k}(\cdot) Pσ^k(⋅),以获得八个相应的输出。然后,我们对八个去噪输出应用逆变换 T − 1 ( ⋅ ) T^{-1}(\cdot) T−1(⋅),并将逆变换输出求平均,得到最终的自集成结果。因此,如果在PGMD中采用自集成策略,则应将相关公式 v k = ▽ F ( x k ) v^k=\bigtriangledown F(x^k) vk=▽F(xk)、 x k + 1 = P r o x ( x k − α v k ) x^{k+1}=\mathbf{Prox}(x^k-\alpha v^k) xk+1=Prox(xk−αvk)修改为
x k + 1 = 1 8 ∑ 8 i = 1 ( T i − 1 ∘ P σ ^ k ∘ T i ) ( x k − α v k ) . x^{k+1}=\frac{1}{8}\sum_{8}^{i=1}(T^{-1}_i\circ P_{\hat{\sigma}^k}\circ T_i)(x^k-\alpha v^k). xk+1=818∑i=1(Ti−1∘Pσ^k∘Ti)(xk−αvk).
自集成策略简单来说就是用一张照片生成八种不同的角度,进行近端算子训练,然后再逆变换回原始图像,求平均值即可。
在模型中,图像空间被划分为多个子空间,每个子空间都有自己的学习近端算子。首先训练正则化 G ( ⋅ ) G(\cdot) G(⋅)估计噪声水平,然后每个子空间训练学习近端算子。通过添加不同的噪声级范围 σ \sigma σ,以及采用均方误差(MSE)损失来破坏训练集 C C C中的原始干净图像 x 0 x_0 x0
G = a r g min G E ( x 0 , ϵ , σ ~ ) ∥ σ ~ − G ( x 0 + σ ~ ϵ ) ∥ 2 , P σ = arg min P σ E ( x 0 , ϵ ) ∥ x 0 − P σ ( x 0 + σ ϵ ) ∥ 2 G=arg\min\limits_G E_{(x_0,\epsilon,\tilde{\sigma})}\Vert\tilde{\sigma}-G(x_0+\tilde{\sigma}\epsilon)\Vert^2,\\ P_{\sigma}=\arg\min\limits_{P_{\sigma}} E_{(x_0,\epsilon)}\Vert x_0 -P_{\sigma}(x_0 +\sigma\epsilon)\Vert^2 G=argGminE(x0,ϵ,σ~)∥σ~−G(x0+σ~ϵ)∥2,Pσ=argPσminE(x0,ϵ)∥x0−Pσ(x0+σϵ)∥2
利用上式来训练 G ( ⋅ ) G(\cdot) G(⋅)和 P σ ( ⋅ ) P_{\sigma}(\cdot) Pσ(⋅)。其中 x 0 ∈ C x_0\in C x0∈C, ϵ ∼ N ( 0 , 1 ) \epsilon\sim N(0,1) ϵ∼N(0,1), σ ~ ∼ U ( 0 , 600 ) \tilde{\sigma}\sim U(0,600) σ~∼U(0,600)。下图显示了为不同数量的子空间设计的噪声范围σ,其中噪声范围随着子空间数量的增加而逐渐细化。在训练近端算子的过程中,我们使用训练良好的网络权值为相对粗糙的噪声范围初始化精细噪声范围的网络权数。
将设计的DRCAN作为近端算子,利用设计的RRN自适应的选择近端算子,则式子
v k = γ k − 1 v k − 1 + ▽ F ( x k ) , x k + 1 = P r o x ( x k − α v k ) v^k=\gamma^{k-1}v^{k-1}+\triangledown F(x^k),\\ x^{k+1}=\mathbf{Prox}(x^k-\alpha v^k) vk=γk−1vk−1+▽F(xk),xk+1=Prox(xk−αvk)
中表示的PGMD递归过程可以表示为
v k = γ k − 1 v k − 1 + ▽ F ( x k ) , σ ^ k = G ( x k − α v k ) , x k + 1 = P σ ^ k ( x k − α v k ) . v^k=\gamma^{k-1}v^{k-1}+\bigtriangledown F(x^k),\\ \hat{\sigma}^k = G(x^k -\alpha v^k),\\ x^{k+1}=P_{\hat{\sigma}^k}(x^k -\alpha v^k). vk=γk−1vk−1+▽F(xk),σ^k=G(xk−αvk),xk+1=Pσ^k(xk−αvk).
这样可以知道最终的重构性能主要受 G ( ⋅ ) G(\cdot) G(⋅)和近端算子 P σ ( ⋅ ) P_{\sigma}(\cdot) Pσ(⋅)的影响,这两个操作也是深度网络模拟的组件。
利用状态演变(SE)来描述PGMD递归过程的动态行为。取 x 0 x_0 x0为原始图像,定义第k次迭代结果的误差为
q k = x k − x 0 , h k = x k + v k − x 0 , q^k=x^k -x_0,\\ h^k =x^k +v^k-x_0,\\ qk=xk−x0,hk=xk+vk−x0,
故能得到公式表示的误差递归
h k = ( I − Φ Φ T ) q k + γ k − 1 ( h k − 1 − q k − 1 ) , σ ^ k = G ( x 0 + h k ) , q k + 1 = P σ ^ k ( x 0 + h k ) − x 0 , h^k =(I-\Phi\Phi^T)q^k+\gamma^{k-1}(h^{k-1}-q^{k-1}),\\ \hat{\sigma}^k = G(x_0 +h^k),\\ q^{k+1}=P_{\hat{\sigma}^k}(x_0 +h^k)-x_0, hk=(I−ΦΦT)qk+γk−1(hk−1−qk−1),σ^k=G(x0+hk),qk+1=Pσ^k(x0+hk)−x0,
这为中间MSE的分析提供了一种方便的手段。设 θ k \theta^k θk和 σ k \sigma^k σk分别为 q k q^k qk和 h k h^k hk的标准差。那么如果 Φ \Phi Φ有先验知识, m , n → ∞ m,n\to\infty m,n→∞,则SE表示递归过程,
( σ k ) 2 = n m ( θ k − 1 ) 2 , σ ^ k = G ( x 0 + σ k ϵ ) , ( θ k ) 2 = 1 n E ϵ { ∥ P σ ^ k ( x 0 + σ k ϵ ) − x 0 ∥ 2 } , (\sigma^k)^2 = \frac{n}{m}(\theta^{k-1})^2,\\ \hat{\sigma}^k = G(x_0+\sigma^k\epsilon),\\ (\theta^k)^2=\frac{1}{n}E_{\epsilon}\{\Vert P_{\hat{\sigma}^k}(x_0 +\sigma^k\epsilon)-x_0\Vert^2\}, (σk)2=mn(θk−1)2,σ^k=G(x0+σkϵ),(θk)2=n1Eϵ{∥Pσ^k(x0+σkϵ)−x0∥2},
其中 ϵ ∼ N ( 0 , 1 ) \epsilon\sim N(0,1) ϵ∼N(0,1)与 x 0 x_0 x0无关。在这些研究中,the empirical intermediate MSE可以用SE[27]估计,即
1 n ∥ P σ ^ k ( x 0 + h k ) − x 0 ∥ ≈ 1 n E ϵ { ∥ P σ ^ k ( x 0 + σ k ϵ ) − x 0 ∥ 2 } . \frac{1}{n}\Vert P_{\hat{\sigma}^k}(x_0+h^k)-x_0\Vert\approx\frac{1}{n}E_{\epsilon}\{\Vert P_{\hat{\sigma}^k}(x_0 +\sigma^k\epsilon)-x_0\Vert^2\}. n1∥Pσ^k(x0+hk)−x0∥≈n1Eϵ{∥Pσ^k(x0+σkϵ)−x0∥2}.
对于一定噪音level σ \sigma σ,我们定义了降噪器 P σ ^ k ( ⋅ ) P_{\hat{\sigma}^k}(\cdot) Pσ^k(⋅)的降噪水平 μ ( P σ ^ , σ ) \mu(P_{\hat{\sigma}},\sigma) μ(Pσ^,σ)如下:
sup x 0 ∈ C E ϵ ∥ P σ ^ ( x 0 + σ ϵ ) − x 0 ∥ 2 n σ 2 = μ ( P σ ^ , σ ) \sup\limits_{x_0\in C}\frac{E_{\epsilon}\Vert P_{\hat{\sigma}}(x_0+\sigma\epsilon)-x_0\Vert^2}{n\sigma^2}=\mu(P_{\hat{\sigma}},\sigma) x0∈Csupnσ2Eϵ∥Pσ^(x0+σϵ)−x0∥2=μ(Pσ^,σ)
其中 C C C是自然图像的集合。
假设我们可以通过立理想噪声level 估计器获得中间结果 ( x 0 + h k ) (x_0+h^k) (x0+hk)的ground-truth值 σ k \sigma^k σk,并且我们可以根据 σ k \sigma_k σk调整降噪器的参数。然后根据
( θ k ) 2 = 1 n E ϵ { ∥ P σ ^ k ( x 0 + σ k ϵ ) − x 0 ∥ 2 } , sup x 0 ∈ C E ϵ ∥ P σ ^ ( x 0 + σ ϵ ) − x 0 ∥ 2 n σ 2 = μ ( P σ ^ , σ ) (\theta^k)^2=\frac{1}{n}E_{\epsilon}\{\Vert P_{\hat{\sigma}^k}(x_0 +\sigma^k\epsilon)-x_0\Vert^2\},\\ \sup\limits_{x_0\in C}\frac{E_{\epsilon}\Vert P_{\hat{\sigma}}(x_0+\sigma\epsilon)-x_0\Vert^2}{n\sigma^2}=\mu(P_{\hat{\sigma}},\sigma) (θk)2=n1Eϵ{∥Pσ^k(x0+σkϵ)−x0∥2},x0∈Csupnσ2Eϵ∥Pσ^(x0+σϵ)−x0∥2=μ(Pσ^,σ)
我们有
( θ k ) 2 ≤ n m μ k ⋅ ( θ k − 1 ) 2 ≤ ( n m ) 2 ( μ k ⋅ μ k − 1 ) ⋅ ( θ k − 2 ) 2 . \left(\theta^{k}\right)^{2} \leq \frac{n}{m} \mu^{k} \cdot\left(\theta^{k-1}\right)^{2} \leq\left(\frac{n}{m}\right)^{2}\left(\mu^{k} \cdot \mu^{k-1}\right) \cdot\left(\theta^{k-2}\right)^{2} . (θk)2≤mnμk⋅(θk−1)2≤(mn)2(μk⋅μk−1)⋅(θk−2)2.
其中 μ k = μ ( P σ k , σ k ) \mu^k=\mu(P_{\sigma^k},\sigma^k) μk=μ(Pσk,σk)是对于噪音等级 σ k \sigma_k σk的去噪器 P σ k ( ⋅ ) P_{\sigma_k}(\cdot) Pσk(⋅)的去噪水平。将
( σ k ) 2 = n m ( θ k − 1 ) 2 (\sigma^k)^2 = \frac{n}{m}(\theta^{k-1})^2 (σk)2=mn(θk−1)2
带入到
( θ k ) 2 ≤ n m μ k ⋅ ( θ k − 1 ) 2 ≤ ( n m ) 2 ( μ k ⋅ μ k − 1 ) ⋅ ( θ k − 2 ) 2 . \left(\theta^{k}\right)^{2} \leq \frac{n}{m} \mu^{k} \cdot\left(\theta^{k-1}\right)^{2} \leq\left(\frac{n}{m}\right)^{2}\left(\mu^{k} \cdot \mu^{k-1}\right) \cdot\left(\theta^{k-2}\right)^{2} . (θk)2≤mnμk⋅(θk−1)2≤(mn)2(μk⋅μk−1)⋅(θk−2)2.
中,我们有
( θ k ) 2 ≤ n m μ k ⋅ ( θ k − 1 ) 2 ≤ ( n m ) 2 ( μ k ⋅ μ k − 1 ) ⋅ ( θ k − 2 ) 2 , \left(\theta^{k}\right)^{2} \leq \frac{n}{m} \mu^{k} \cdot\left(\theta^{k-1}\right)^{2} \leq\left(\frac{n}{m}\right)^{2}\left(\mu^{k} \cdot \mu^{k-1}\right) \cdot\left(\theta^{k-2}\right)^{2}, (θk)2≤mnμk⋅(θk−1)2≤(mn)2(μk⋅μk−1)⋅(θk−2)2,
则
( θ k ) 2 ≤ ( n m ) k ( ∏ i = 0 k μ i ) ( σ 0 ) 2 = ( n m ) k ( ∏ i = 0 k μ i ) ∥ Φ T y ∥ 2 , \left(\theta^{k}\right)^{2} \leq\left(\frac{n}{m}\right)^{k}\left(\prod_{i=0}^{k} \mu^{i}\right)\left(\sigma^{0}\right)^{2}=\left(\frac{n}{m}\right)^{k}\left(\prod_{i=0}^{k} \mu^{i}\right)\left\|\Phi^{\mathrm{T}} y\right\|^{2}, (θk)2≤(mn)k(i=0∏kμi)(σ0)2=(mn)k(i=0∏kμi)∥ ∥ΦTy∥ ∥2,
如果 x 0 x^0 x0初始化为一个零向量。从上式,我们知道在重构的 M S E MSE MSE上,更小的去噪level μ i \mu^i μi可以导致更小的上界,保证最终重建结果的准确性。
开发了一个新的框架,用于基于学习正则化和近端算子的图像CS重建。该框架利用PMGD算法解决CS优化问题,利用残差回归网络和扩展的残差通道注意网分别模拟正则项和近端算子。
将图像划分为多个子空间,其中每个子空间都有自己的近端算子。将子空间中包含的图像映射到干净的子空间中。
引入了自集成策略来提高CS重建的性能。
状态演化分析表明了所设计网络的有效性。
准确性。