降低神经网络在光纤信道均衡方面的复杂度:从概念到应用

##引言:
尽管基于机器学习,特别是神经网络—NN在光纤传输的均衡上有诸多优势,但是在具体应用上仍有许多的挑战。其中一个重大的挑战是基于NN的经典算法复杂度太高,因此就需要硬件有更快的处理速度和更大的能源消耗。

 

有一篇论文中指出,在NN均衡器复杂度不受限的情况下CNN +BiLSTM在几种NN结构的均衡算法中具有最好的性能。在该论文中也指出,降低算法整体复杂度的方法包括:减少节点、隐藏单元、滤波等的个数,但也会带来严重的性能恶化。

为了平衡复杂度&性能,有两种方法被普遍的采纳:

  1. 修正原始的NN均衡器结构:它一次只从多符号输入中恢复一个符号,这样就可以一次恢复多个符号。这可以通过使用多维回归预测来实现建模(软解映射器耦合到 NN 均衡结构时使用多维分类 )。在当生成的多输出 NN 架构是类似于原始的(在一次恢复中只恢复了一个符号时间),每个恢复符号的整体复杂性降低了。
  2. 使用复杂的 NN 模型压缩减少乘法次数的技术,然后通过允许低的NN算术运算的位宽精度降低硬件的复杂度。

##光纤传输中的非线性问题:

 上式可以用来对仅有单偏振的光纤传输系统建模,比如IM/DD系统。但是一个相干光通信系统中可以利用先进的DSP技术传输双偏振信号,可以使系统的频谱效率翻倍。其NLSE方程如下:

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第1张图片

 上式也正确的平均了能导致相位快速变化的残留双折射的影响。电场偏振态的快速变化,导致非线性不是对应于来自线性场或者圆极化场中的一个,而是来自整个庞加莱球的平均。当然,上式也没有考虑受激拉曼散射的影响。事实上,SRS影响通常在仅有C波段的系统中是可以忽略的,但是随着在超宽带光学系统的到来,SRS是光网络中主要的传输损伤。


#非线性克尔效应造成的信道容量受限

香农理论极限指出:线性信道的容量随着传输信号的功率的增大而单调上升。但是,在光纤光学中,这个上升的趋势却不能保持。随着传输信号功率的增加,\left | E_{_{x}} \right |^{2}+\left | E_{_{y}} \right |^{2}这一项也会变大进而造成相位失真,从而限制了光网络的最大的吞吐量。


#缓解光传输中克尔效应的方法:

方程式(4)中该方程没有一个闭合解,因此有个经典的方式是利用SSFM方法来获得近似解。(不做过多赘述)光纤中的线性效应,包括GVD、PMD可以通过电域中使用一个频域的均衡器器级联一个MIMO均衡器(CMA补偿?)。另一方面,由克尔效应导致的传输信号上的SPM、XPM的补偿相当的复杂。目前,主要有4种方法用于缓解非线性:

  1. 极大似然序列估计(MLSE):在没有格点状态个数的限制,MLSE是最优的方法。但是,如果有了这种限制,那么这种方法的复杂度过高,其商业应用最多止步于10Gb/s的系统,显然不适用于当下的高符号率的系统,而且,针对MLSE能否达到一个更低的能源消耗问题上,似乎也是不可能的。
  2. Volterra级数-均衡器:Volterra均衡器就是以泰勒展开的形式,将FIR由线性扩展到非线性。
  3. DBP:主要的思想的就是给MIMO均衡器加上一个非线性的部分,如此一来,DBP能对线性部分和非线性部分都求逆。然而,DBP只有在相干接收系统里才能发挥主要作用并且应用在实际均衡工作中仍然是具有较高的复杂度。
  4. NN-均衡器:NN均衡器能够在缺失链路信息的情况下或者系统配置改变的情况,因为NN均衡器是直接从接收信号中来获得所需要的信号的。但是,NN通常比DBP的复杂度都高。

##低复杂度神经网络的设计

BiLSTM均衡器在many-to-one(1维回归任务)的系统配置里,比如,一个窗口的符号最终只用于恢复中间的一个符号,导致复杂度——单位恢复信号所需的实数乘法(RMpS):

 ns:时域输入序列的大小。ni:输入特征的个数。no:输出的维度(通常是2维-实部和虚部),nh:LSTM胞体中隐藏层的个数。

如何设计降低复杂度?通过一个NN结构恢复多个信号以此来加强LSTM的均衡作用。恢复多个信号时注意,因为窗口里的初始信号和最终信号会由于色散导致丢失重要信息,最简单的降低时间窗口张量的复杂度且不丢失信息的方式是使用一个1D的卷积层。nk:核的大小因此呢,恢复信号的个数为M-nk+1。方案图如图所示:

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第2张图片

 计算复杂度在ns-nk+1的并行化恢复的处理下,可以降为:


##深度压缩技术

主要是介绍了三种神经网络的压缩方法:裁剪(pruning),权重聚类(weight clustering),量化(quantization)

#裁剪:裁剪技术的适用范围非常广,而文中主要考虑的是针对静态的、迭代的、非结构化的、global magnitude-based 裁剪方式。在迭代式的裁剪后的再训练过程中,主要也是有四种方法,分别是:微调(Fine-tuning approach)、权重复卷(weight-rewinding)、学习率复卷(learning rate rewinding)、贝叶斯优化器辅助(Bayesian optimizer assisted)下面给出了四种方法的原理图。

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第3张图片

  1.  微调:传统的微调的方式有polynomial decay。当然这种方式还能应用的方面有——均衡光纤非线性中的一些‘deterministic’method。比如,消除Volterra均衡器的非相关的系数并且去除掉一些不重要的三元组(让三元组特征向量更稀疏)。还可以应用在一些微扰方法里。文中的一个贡献就是将以往微调只应用在前馈神经网络中扩展到循环神经网络里和相干的光传输中。
  2. 权重复卷:中心思想主要是一个稠密的NN在随机初始化的状态下,一定有着一个子网络,在独立的训练状态下,有着和原始网络差不多的测试精确度。在训练过程中分为3步:第一,初始训练中,保存每轮的权重系数;第二,完成训练后,按一定比例裁剪网络整体的连接,剩余网络中的权重系数和学习率需要重置回原来的值;第三,再训练过程。
  3. 学习率复卷:相当于权重复卷的简化版本,只重置学习率。不过,该方法未在实验中被验证。
  4. 贝叶斯优化器辅助:微调神经网络的初始超参数并不能保证均衡器的性能保持相似,对此有一个解释是——一旦神经网络开始修剪,优化问题的目标就会发生变化。使用基于BO的方法,不仅定义修剪策略,而且还定义模型其他重要超参数(调优周期的数量、学习率、批处理大小、初始/最终的稀疏性)。其根本思想就是在黑箱函数里找到一个全局最优的参数集Hp,以平衡系统的性能和复杂度。

#权重聚类

权重聚类也被称为权重共享压缩方法,是另一种可以通过减少模型使用的有效权重数量来降低神经网络模型复杂性的方法。这种方法考虑到几个连接可能共享相同的权重值,然后对这些共享的权重进行微调。

在选择中心点初始化技术之后,使用每个权重到这些中点的最小距离来确定训练网络的每一层的共享权重,以便同一聚类中的所有权重共享相同的权重值。为了防止进一步的性能损失,并且因为在连续层之间共享权重不会降低计算复杂性,所以在层之间不共享权重。下图展示了该策略是如何应用的。

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第4张图片

 从图中可以看出,初始权重值在训练之后只有三个不同的中心点。需要注意的是,使用这种技术带来的好处取决于输入向量和权重矩阵的长度,以及学习到的权重模式如何分布在权重矩阵上。


#量化

量化用于降低参与算术运算的数字的位宽,这通常有助于显著降低处理的计算复杂性。使用神经网络模型训练和推理时,量化具有非常好的效果。神经网络得益于量化,因为神经网络对激进量化和极端离散化具有显著的鲁棒性。这种鲁棒性来自于神经网络中涉及的大量参数,这意味着它们通常使用过度参数化的模型。下面主要介绍4种模式(训练后量化、量化感知训练、量化方法(同质和异质))。

  1. 同质和异质量化:同质量化也就是均匀量化,就是将所有神经网络权重的精度降低到相同的比特数;异质量化是指在神经网络红对不同的层进行量化的过程。其中量化方式有均匀量化、两次量化的幂(PoT)、两次量化的加性幂(APoT)。
  2. 训练后量化(PTQ):这是一种转换技术,在训练阶段建立一定的量化精度后,将神经网络模型的所有训练权重和激活转换为某种固定点表示。
  3. 量化感知训练:解决了由于量化导致的信息损失,量化的整数模型的推理性能一般不如浮点模型的局限性。QAT解释了训练阶段的信息损失,导致推理期间的性能下降较小。(这块不太了解!看不懂)

##NN均衡器的性能评估

##计算复杂度的评估标准

估计不同类型的伸进网络层计算复杂度的一般方法中有四个指标,分别是:乘法的数量、位操作的数量、移位和添加操作的数量、硬件逻辑门的数量。

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第5张图片

 四种不同评价标准的用法:

降低神经网络在光纤信道均衡方面的复杂度:从概念到应用_第6张图片

 

你可能感兴趣的:(论文阅读与评论,神经网络,人工智能)