Fast Deep Learning for Automatic Modulation Classification解读

基于快速深度学习的自动调制分类

摘要:在这项工作中,作者考察了利用深度学习算法自动识别下采样数据接收的无线通信信号的调制类型的可行性和有效性。最近的工作考虑了一个基于GNU无线电的数据集,它模拟了真实无线信道中的缺陷,并使用了10种不同的调制类型。随后开发了一种卷积神经网络(CNN)架构,并显示其性能超过了基于专家的方法。在这里,作者继续这一工作,并研究提供高分类精度的深度神经网络架构。作者确定了三种体系结构,即卷积长短期深度神经网络(CLDNN)、长短期记忆神经网络(LSTM)和深度残留网络(ResNet),它们可以在高信噪比下实现约90%的典型分类准确率。然后作者研究算法,通过最小化训练数据集的大小来减少训练时间,同时在分类精度上产生最小的损失。为此,作者证明了主成分分析在显著减少训练时间的同时,在低信噪比下保持良好的性能。作者还研究了子采样技术,进一步减少了训练时间,并为高信噪比下的在线分类铺平了道路。最后,作者为每个候选架构识别出具有代表性的信噪比值,从而实现训练时间的大幅减少,而分类精度的损失可以忽略不计。

1.引言

自动调制分类在现代无线通信中占有重要地位。它在各种商业和军事领域都有应用。例如,软件定义无线电(SDR)使用调制类型的盲识别来快速适应各种通信系统,而不需要控制开销。在军事环境中,友好信号应该被安全接收,而敌对信号需要在没有事先信息的情况下被有效识别。在这种情况下,需要先进的实时信号处理和盲调制识别技术。调制识别也可以被证明是识别接收到的无线信号源的重要能力,它可以为上下文感知的自主无线通信系统提供各种智能决策。

一个典型的调制分类器包括两个步骤:信号预处理和分类算法。预处理任务包括降噪和估计信号参数,如载波频率和信号功率。第二步,常规选择了三种常用的调制识别算法:基于似然(LB)[2] -[7]、基于特征(FB)[8] -[13]或使用人工神经网络(ANN)[14] -[18]。第一个比较每个可能的假设与阈值的似然比,阈值是由观测波的概率密度函数导出的。提出了多重似然比检验(Multiple likelihood ratio test, LRT)算法:平均LRT[19]、广义LRT[20]、混合LRT[7]和准混合LRT[2]。在FB方法中,为决策选择和观察几个特征。LB和FB方法都需要在第一步中进行精确估计,目前仅导出了几种调制类型[4],[19],[21],[22]。神经网络结构如多层感知器(MLP)已被广泛用于调制型分类器[14]。与LB和FB技术手工选择决策阈值不同,神经网络中的阈值可以自适应和自动确定。传统的MLP在调幅、调频、ASK和FSK等调制类型上都有很好的表现。最近的研究表明,具有尖端结构的深度神经网络可以极大地改善分类过程(如[23]和[24])。

近年来,深度神经网络在视频、语音和图像处理等领域的研究中发挥了重要作用。最近,深度学习算法的成功与一些应用有关,这些应用受到现有数学模型不准确的影响,并享受大数据集的可用性。最近,深度学习的思想被引入到调制分类中,使用卷积神经网络(CNN)来区分10种不同的调制类型[23]。仿真结果表明,与现有的基于专家的方法相比,CNN不仅具有更好的精度结果,而且在检测各种调制类型方面具有更大的灵活性。残差网络(ResNet)[24]和密连网络(DenseNet)[25]最近被引入,通过在网络的不同层之间创建快速路径来加强特征在深度神经网络中的传播。通过添加旁路连接,可以创建一个身份映射,使深度网络可以学习简单的功能。ResNet体系结构在[26]中成功地区分了24种不同的调制类型。DenseNet在图像识别方面表现良好,但尚未应用于调制识别领域。最近在[27]中引入了卷积长短期深度神经网络(Convolutional Long - Short-term Deep Neural Network, CLDNN),它利用CNN、LSTM和传统深度神经网络架构的互补性,将CNN和Long - Short-term Memory (Long - Short-term Memory, LSTM)的架构结合成一个深度神经网络。LSTM单元是一个循环神经网络(RNN)的记忆单元。神经网络是具有记忆功能的神经网络,适用于学习序列任务,如语音识别和手写识别。LSTM通过在其记忆单元中使用遗忘门来优化RNN中的梯度消失问题,使其能够学习长期依赖关系。在[28]中,作者将LSTM单元添加到神经网络模型中,并对广泛的调制格式提出了较高的分类精度。在这项工作中,作者提出了五种不同的体系结构,提供了比在[23]中引入的CNN更高的分类精度。作者为调制识别任务设计了自己的CNN、DenseNet和CLDNN架构,并通过调整ResNet的剩余堆栈数量和LSTM的超参数,推导出[26]的ResNet架构和[28]的LSTM架构的优化版本。

基于深度神经网络架构的机器学习算法面临的一个主要挑战是训练时间长。例如,对于当前的问题,即使是[23]中简单的CNN架构,也需要使用3个Nvidia Tesla P100 GPU芯片进行大约40分钟的训练。这对实时应用此类算法的可行性造成了严重障碍,需要在线培训以适应不断变化的环境条件的网络架构。特别是,与最先进的方法相比,将深度学习应用于下一代网络中预期的自主无线通信系统,需要显著减少训练时间。在这些系统中,很可能经常需要训练机器学习算法来适应新的环境条件。因此,如何减少训练时间成为这些算法成功的关键。

这项工作的目标是双重的:确定适合调制分类任务的深度神经网络架构,并提出减少训练时间的方法。首先,基于[29]提供的数据集,研究不同的深度神经网络结构用于调制分类任务。受近期研究的启发,作者探索了五种不同的体系结构,它们提供了比[23]的CNN体系结构更高的分类精度,并为它们的最佳设计构建见解,并确定了在广泛的信噪比值范围内提供高分类精度的候选体系结构。特别是,作者发现在这项工作中开发的CLDNN和[26]的ResNet的优化变种,在低信噪比下提供卓越的性能。作者还表明ResNet和[28]的LSTM结构的优化变体在高信噪比下表现最好。然后作者探索各种方法来减少训练时间,通过最小化训练集的大小,同时保留相关信息的分类任务。这些方法是基于降维和亚奈奎斯特技术(请参阅[30]的回顾),以及寻找适合训练的代表性信噪比值。作者获得了这些方法的影响和优化设计的见解。作者的结果证实了将训练时间减少20倍的可能性,同时在分类准确性方面损失最小(低至2%)。

CLDNN, ResNet和LSTM架构,最好确定执行在不同的信噪比范围内从-20分贝到18分贝,训练时间下降线性降维因素或二次抽样率,以及减少例子向量的数量在训练数据集通过信噪比选择。作者发现,在低信噪比情况下,通过主成分分析(PCA)降低输入向量维数比子采样更有效,而在高信噪比情况下则相反。特别地,作者开发了一种基于剔除低幅度值样本的子采样方法,并表明该方法在高信噪比下对分类精度的影响很小。最后,作者论证了选择具有代表性的训练SNR值的有效性,表明对于所考虑的20个SNR值从-20dB到18dB的范围内,选择一对SNR值可以导致训练时间减少10倍的良性精度退化(  LSTM低于 2  )。结果表明,这两种或两种以上方法的结合可能非常强大。例如,对于本文提出的LSTM架构,采用因子为2的均匀亚采样,训练SNR值分别为18dB和0dB,在训练时间减少20倍的情况下,可能导致可忽略的精度退化。

本文的其余部分组织如下。作者首先在第二节描述考虑的数据集和编程环境,并在第三节研究深度神经网络体系结构和它们的分类性能。然后,作者考虑最小化三个候选架构的训练时间的问题,同时在准确性方面造成最小损失。作者开始这项研究通过调查不同的方法来压缩输入数据降维,在第四节二次抽样。然后作者探索节V代表信噪比的存在价值,可以专门用于培训,同时保持准确的分类在整个检测信噪比范围。在第六节中,作者将讨论从给出的结果中获得的见解。作者最后在第七节结束这项工作。

2.实验装置

在这项工作中,作者考虑接收无线信号的调制类型的分类,使用深度神经网络分类器,自适应地结合从训练数据集提取的特征。目标是从接收信号r ( t )中识别调制类型i。为此,作者使用基于深度神经网络结构的多种机器学习分类器,首先对训练数据集进行网络参数设置,然后在测试数据集( 详情见 [ 31  )的分类输出上计算分类精度。

作者使用[23]生成的RadioML2016.10b数据集作为作者研究的输入数据。关于生成该数据集的详细信息可以在[29]中找到。图1显示了数据生成的高级框架。对于数字调制,整个古腾堡作品的莎士比亚的ASCII使用,并使用白化随机发生器以确保等概率符号和位。对于模拟调制,使用一个连续的语音信号作为输入数据,它主要由声学语音语音和一些间歇和中断时间组成。选择了十种广泛使用的调制:八种数字调制和两种模拟调制。它们包括BPSK、QPSK、8PSK、QAM16、QAM64、BFSK、CPFSK和PAM4用于数字调制,以及WB-FM和AM-DSB用于模拟调制。数据集在所有考虑的调制类型中平均分配。对于信道模型,仿真了热噪声和多径衰落等物理环境噪声。产生随机信道和器件缺陷的模型包括采样率偏移模型、噪声模型、中心频率偏移模型和衰落模型。在打包数据时,将每个仿真的输出流随机分割成向量作为原始数据集,采样率为1M采样/秒。类似于在语音识别任务中对声音信号进行窗口处理的方式,滑动窗口提取128个样本,移动64个样本,这就形成了作者正在使用的数据集。利用[29]开发的GNU-radio库生成的16万个样本,通过128个样本的矩形加窗处理分割成训练和测试数据集,类似于语音识别任务中使用的加窗连续声语音信号。训练样本——每个由128个样本组成——以2×128个向量输入神经网络,在复杂时间样本中实部和虚部分离,除纯LSTM结构外,其馀均以极性形式(幅值和相位)输入样本。输入数据中的标签包括信噪比地面真值和调制类型。样品的信噪比在- 20dB ~ + 18dB范围内均匀分布,步长为2dB,即在{ - 20,- 18,- 16,…,18 }内,数据集在所有信噪比dB值之间平均分配。最后,将分类精度衡量为正确分类样本占测试数据集的百分比。

在作者所有的实验中,作者使用Keras和TensorFlow作为后端。作者使用的GPU服务器配备了3个特斯拉P100 GPU,内存为16gb。所有架构都使用了Adam优化器,损失函数为分类交叉熵函数。作者还对所有层都使用了ReLu激活函数,除了最后一个致密层,在该致密层中作者使用了Softmax激活函数。对于除LSTM之外的所有体系结构,作者使用的批处理大小为1024,学习速率为0.001。对于LSTM体系结构,作者使用400个批量,学习速率为0.0018。

3.深度神经网络体系结构

作者研究了五种不同类型的神经网络架构在考虑的调制分类问题上的性能:卷积神经网络(CNN)、密集连接卷积网络(DenseNet)、卷积长短期记忆深度神经网络(CLDNN)、长短期记忆网络(LSTM)和深度残留网络(ResNet)。

A.CNN和DenseNet架构

作者从一个类似于[23]中提出的CNN2网络的卷积神经网络架构开始,该网络在高信噪比下达到了75%的准确率。作者实验了不同的网络深度和过滤器设置。在高信噪比下,作者获得的最佳精度约为83.8%,使用具有4个卷积层的CNN架构,如图2所示。图中每个卷积层下面的第一个参数表示该层中的滤波器数量,而第二个和第三个数字表示每个滤波器的大小。在这两层密集的网络中,按照神经元在网络中的深度顺序,分别有128个和11个神经元。作者注意到,与CNN2相比,改进的性能是由于增加了两个卷积层。

接下来,作者通过引入如图3所示的DenseNet架构来研究快捷连接的效果。DenseNet的架构与CNN类似,除了非连续层之间的快捷连接。在高信噪比条件下,该系统的分类精度提高到86.6%。

B. CLDNN架构

递归神经网络(RNN)已被证明为时域数据处理任务提供了一个强大的工具,因为它能够将之前的状态信息与当前的任务连接起来。受[27]的启发,作者在CNN体系结构中添加了一个LSTM层,从而提出了CLDNN体系结构。CLDNN所考虑的详细架构如图4所示。额外的LSTM层被放置在CNN层和密集层之间。在作者的实验中,50个细胞的LSTM层提供了最好的准确性。在较高的信噪比(2 dB以上)下,该体系结构的分类精度达到88.5%。RNN结构适合于调制分类,因为它可以从输入波形中提取时间关系。

C . LSTM架构

在[32]中,作者提出了一种基于纯LSTM体系结构的调制分类模型。该网络的设计基于与作者的CLDNN相似的直觉,即LSTM在学习时间序列数据处理任务中的长期依赖关系方面是有效的。然而,与CLDNN不同,LSTM没有卷积层。这个体系结构接收极性形式的输入样本,而不是用于所有其他考虑的体系结构的矩形形式。通过计算输入I/Q样本在每个采样时间步长的振幅和相位,得到极坐标形式的表示法。然后使用两个LSTM层,每个层有128个单元,提取不同调制方案的幅度和相位特性的时间相关性。它使用一个带有Softmax激活函数的稠密层作为最后一个隐藏层,将第2个LSTM层的输出投影到最后的概率输出空间P(Classes)中。

作者在[32]中对LSTM网络的超参数进行了微调,发现在高信噪比下,LSTM网络的分类精度达到92%。LSTM网络的性能进一步表明RNNs调制分类的任务提供一个不错的选择在分类精度方面,由于他们在时间序列数据中提取长期时间关系的能力,这可能有助于识别符号到符号转换的模式。

然而,当涉及到在线学习时,RNN有几个问题。首先,神经网络的训练时间比前馈神经网络的训练时间要慢很多。使用所有3个GPU, LSTM网络的训练时间为222秒/ epoch,大约是4个卷积层CNN网络的训练时间的4倍。原因有二:第一,神经网络优化过程的计算复杂度比传统的神经网络要大得多。RNN对每批的每个时间步执行一个完整的优化步骤(一个正向传播和一个反向传播),而FNN(前馈神经网络)每批只执行一个完整的优化步骤。其次,FNN的计算通常很容易并行化,而RNN的计算则很难并行化,因为RNN计算的每个时域步长都依赖于前面的步骤。如此长的训练时间成为在线训练的瓶颈,因为在线训练数据是实时的,需要快速完成训练过程。其次,当到达信号的采样率不是固定的,或者当为了实现更快的学习需要降维或子采样过程时,RNNs试图提取的时间关系可能会被破坏。这在第四节中有更详细的说明,其中作者看到CLDNN和LSTM网络在进行子采样或降维时,在高信噪比下的分类精度都迅速下降。在这些情况下,下面介绍的ResNet架构表现最好。

D . ResNet架构

随着神经网络深度的增长,其学习性能受到了梯度消失或爆炸、过拟合等问题的挑战,因此,深度神经网络的训练和测试精度在网络达到一定深度后开始下降。退化的测试精度结果过度拟合问题,由于额外的复杂性在深神经网络训练精度退化是由于消失的问题/爆炸梯度使优化器不太可行的收敛于一个足够好的当地最低的成本函数。

在ImageNet和COCO 2015竞赛中引入了深度残差网络( Deep residual Network,ResNet )架构。它解决了更深层次神经网络中的精度退化问题,已被证明是广泛机器学习任务的鲁棒选择。受文中ResNet体系结构的启发,作者设计了一个类似的ResNet,但是用三个剩余栈代替六个,因为作者发现选择会导致分类精度的提高。网络的总体结构如表1所示。在作者的网络中,三个剩余栈依次是三个全连接层,每个剩余栈由一个卷积层、两个剩余单元和一个最大池化层组成。对于每个残差单元,将残差单元的输入与残差单元第二卷积层的输出相加,形成一个快捷连接。残差单元中的每个卷积层使用1x5的滤波器大小,然后是一个批处理归一层,以防止过拟合。残差单元和残差堆栈的详细结构分别如图6和图7所示。与章节III-A中的DenseNet体系结构相比,提出的ResNet降低了每一层的复杂性。因此,ResNet能够在不出现精度降低问题的情况下进行更深入的研究。ResNet体系结构在高信噪比下提供92%的分类精度,同时具有58秒/ epoch的快速训练速度。

作者在图8中显示了所有模型的总体精度和信噪比结果。作者确定了提供良好性能的三种架构:CLDNN、LSTM和ResNet。在高信噪比的情况下,LSTM和ResNet的分类准确率均达到92%,在所有模型中效果最好。在低信噪比下,CLDNN和ResNet提供了最好的结果。

4.降维与子抽样

在这一节中,作者将通过降低每个输入到深度神经网络分类器的向量样本的维数,来提出各种最小化训练时间的尝试。基于第三节的结果,作者考虑CLDNN、ResNet和LSTM架构,分别在第三节- b、第三节- d和第三节- c中描述。对于每一种最小化训练时间的方法,作者将输入向量维数减少2k倍(1≤k≤5)得到的结果报告出来。回想一下,每个训练示例输入向量最初有256个维度,128个复杂时间样本每个占用2个维度。从图9所示的输入波形的频域表示中值得注意的是,输入波形的采样率大约是奈奎斯特率的6倍,因此,只有在8、16和32的因数下才会降到亚奈奎斯特水平。

A.PCA(主成分分析)

作者的第一个尝试是使用PCA[33]来减少每个输入向量所占用的维数。作者使用所有训练输入向量进行PCA,对应于10种调制类型。作者根据训练数据找到降维子空间的基,然后将每个测试向量投影到相同的子空间上。将PCA应用于CLDNN、ResNet和LSTM体系结构的输入所得到的结果分别如图10、11和12所示。作者首先注意到,对于所有考虑的体系结构,随着维度的减少,训练时间呈线性下降。例如,将维度减少2个因素,可使培训时间大约减少一半。作者从结果中进一步做如下观察:

1)减小输入维数时,LSTM的性能显著下降。作者认为,这是由于与分类任务密切相关的时间相关性的丢失。

2) ResNet架构对于使用PCA进行降维是最稳健的,特别是当降维因子为8时,它在2 dB时提供了约70%的精度。

3)有趣的是,通过主成分分析(PCA)降低输入维数时,精度曲线随信噪比的变化不一定是单调的。当将CLDNN体系结构的输入维度减少8倍时,这一点最为明显。在这种情况下,当信噪比大于0 dB时,精度显著下降。

4)减小输入尺寸不一定会导致精度下降。作者观察到,当将输入维度降低2和4的因子时,作者对所有三个体系结构获得了几乎相同的结果。作者认为,这种现象的出现是因为虽然降维可能导致分类所需要的相关信息丢失,但也可以通过去除任务无关信息来减少过拟合。

B .均匀子抽样

作者的第二个尝试是使用均匀子采样[30]来完成同样的降维任务,以减少候选体系结构的训练时间。作者定期对输入向量进行采样,并基于下采样向量对体系结构进行训练。通过对CLDNN、ResNet和LSTM体系结构的输入进行均匀子采样得到的结果分别如图13、14和15所示。作者注意到,就像在PCA实验中观察到的结果一样,训练时间随着输入向量的维数的下降而线性下降。对于在高信噪比下考虑得最好的体系结构——即LSTM和ResNet——作者观察到,统一子采样提供了优于PCA的性能。相反,对于在低信噪比下性能最好的CLDNN和ResNet架构,PCA比均匀子采样提供了更好的性能。正如作者将在本节的其余部分看到的,当将本工作中考虑的任何子采样方法与PCA进行比较时,这个观察结果是成立的。这证明了PCA对抗高水平随机噪声的出色能力,同时它也强调了其在高信噪比下的缺陷,因为可能会丢失用子采样技术保存的结构信息。作者从均匀子抽样结果中进一步观察到以下几点:

1)在高信噪比条件下,使用一半的样本时,ResNet和LSTM的性能有所提高。对于LSTM,在高信噪比条件下,当样本数为1 / 4时,分类精度高于全部样本时的分类精度。作者认为这是训练输入过采样的影响(见图9)。

2) CLDNN体系结构得益于对输入进行过采样,从而获得较高的分类精度。当使用一半的样本时,这在其性能中是明显的,因为分类精度的快速下降被观察到。相反,对于ResNet和LSTM来说,在高信噪比的情况下性能反而提高了,这是因为训练输入过采样的副作用过拟合减少了。

3)在高信噪比(2 dB ~ 10 dB)时,使用ResNet和LSTM的一半样本的性能优于全部样本,而在低信噪比(-20 dB ~ 0 dB)时性能较差。这表明,即使是ResNet和LSTM体系结构也可以从低信噪比下的过采样中显著受益。这种在低信噪比下进行过采样的优势适用于本工作中考虑的所有降维和二次采样技术。

C .随机子抽样

作者减少输入向量维数的第三个尝试是使用随机子抽样[30]。不像均匀子采样,输入向量是在均匀间隔上采样,随机子采样试图在时间上的随机间隔上采样输入向量,并基于下采样向量训练体系结构。这里需要注意的一个重要细节是,样本出现的顺序是保持的,这意味着如果在t时刻和t + t1时刻采集两个样本,其中t1 > 0,那么在t + t1时刻采集的样本必须在t时刻采集的样本后面来到由此产生的下采样向量中。此外,只进行一次随机化,选择一组索引对at进行子采样,然后对所有训练和测试向量对同一索引进行下采样。图中给出了CLDNN、ResNet和LSTM架构输入随机亚采样得到的结果。分别为16、17、18。作者注意到,该结果是基于一个指标的随机选择,因为作者在尝试多个其他选择时得到了非常相似的结果。

作者观察到,当得到的采样率接近Nyquist ( 1 / 8次采样)或以上( 1 / 4和1 / 2次采样)时,均匀采样的训练数据集导致比随机采样的训练数据集更高的分类精度。然而,随机子采样实际上导致了对远低于奈奎斯特速率(  1 / 16和 1 / 32次抽样 )的采样率具有更高的分类精度。这与文献的直觉一致,其中典型的有效非均匀的子奈奎斯特策略优越。

D .数量级子采样

受[30]中讨论的子nyquist速率采样技术的启发,作者提出了第四次也是最后一次尝试,即对输入向量进行降维,作为减少训练时间的一种手段。作者使用基于幅度的子抽样,首先使用样本的实部和虚部来计算样本的幅度。然后将每个向量对应的样本按照大小降序排列,第1级的样本属于大小最大的样本。震级最高的顶端样本是根据次采样率采集的,并按照在原始数据集中所观察到的序列进行重新排列,这与随机次采样时样本出现的顺序的保持类似。图中给出了CLDNN、ResNet和LSTM三种结构输入的描述幅值秩次采样的结果。分别为19、20和21。作者观察如下:

1)当采样率接近Nyquist率(1/8次采样)或以上(1/4和1/2次采样)时,对于所有三个考虑的体系结构,数量级子采样的分类精度都比均匀次采样差,比随机次采样好。

2)数量级子采样在远低于Nyquist率(1/16和1/32子采样)的情况下,性能显著优于均匀和随机子采样,但LSTM体系结构除外。同样,这与在[30]中讨论的子奈奎斯特抽样的直觉一致。

3) LSTM结构的幅度秩子抽样性能相对于其他两种结构的表现较差,这是由于失去了与分类任务密切相关的时间相关性,可能依赖于较小幅度的样本。

4)采样率降低导致的精度下降似乎比PCA和均匀随机子采样更接近线性。特别是,在高信噪比下,这种降解是相当温和的。

E.讨论:减少训练时间

降维和子采样技术的目的是减少架构的训练时间,以方便在线训练。以下是三个网络的训练时间的变化趋势:

在所有考虑的降维和降采样情况下,随着输入向量维数的减少,训练时间呈线性下降。更确切地说,PCA或子采样前每历元的训练时间与PCA或子采样后每历元的训练时间之比,与降维前输入向量的维数与降维后输入向量的维数之比近似相等。

2)上述训练时间比对于CLDNN和ResNet架构,当PCA或子采样前后的维数比接近或高于Nyquist率,即维数减少1/8、1/4和1/2时,训练时间比略高。对于CLDNN,训练时间比分别约为0.131、0.28和0.57,而对于ResNet,训练时间比分别为0.129、0.27和0.51。

3)以上第二个观察结果并不适用于LSTM体系结构,即使是1/2降维和子采样率。作者认为,这是因为与CLDNN和ResNet架构的输入层相比,LSTM的输入层所占神经元总数的比例更高。

5.信噪比选择

在本节中,作者考虑只使用一个或两个代表性信噪比值对应的数据集来训练第三节中确定的CLDNN、ResNet和LSTM体系结构,而不是使用所有可用的20个信噪比值。因此,训练时间大大减少。作者进一步展示了这些训练信噪比值的某些选择如何导致在分类精度上可以忽略不计的损失。

A.单信噪比选择

作者首先考虑用一个单信噪比值采集的数据集来训练每个体系结构。对于CLDNN架构,不同训练信噪比下的分类精度结果如图22所示。仅使用10db数据进行训练就能获得最佳性能。训练时间从之前的58秒/ epoch减少到3秒/ epoch。作者还注意到,在-8 dB到0 dB的中间范围内使用单一信噪比进行训练,可以在相应的中间信噪比值下为测试数据集产生较高的分类精度。

图23显示了使用单个信噪比数据进行训练时ResNet的性能。使用高信噪比数据进行训练可以获得更好的总体分类精度,而8 dB的训练数据集可以获得最高的总体分类精度。使用所有3个gpu时,训练时间减少到每epoch 2秒,而使用所有3个gpu时,训练时间为每epoch 38秒。

图24为LSTM对单个信噪比训练的模型性能。4分贝的训练只导致了最高的整体准确度。使用所有3个gpu,训练时间从222秒/ epoch减少到12秒/ epoch。

基于所有三个考虑的网络的结果,作者注意到,在所有考虑的信噪比值上,使用高信噪比数据进行训练产生最高的平均测试精度;特别是对于高信噪比的测试数据,其精度显著提高。使用非常低的信噪比数据(低于-10 dB)进行训练似乎没有任何好处。然而,在-10 dB到0 dB的低信噪比范围内进行训练,对相同信噪比范围内的测试数据产生的精度值最高,而对较高信噪比的测试数据则没有这种效果。

B.均匀随机选择

为了评估选择具有代表性的信噪比训练值的有效性,作者接下来的实验是随机选择一个训练数据集,在所有的20个信噪比值中平均分配。作者通过组合等大小的集合来选择训练数据集,这些集合是从20个信噪比值中随机选择的。图25、26和27分别显示了CLDNN、ResNet和LSTM在不同训练数据大小下的分类精度。注意,在最初的设置中,作者使用50%的数据集进行训练。图中显示的数据百分比与整个数据集的百分比相对应。

作者还将三个体系结构中的每一个的结果与使用训练数据集在单一信噪比值下获得的结果进行比较,该值给出了最高的平均分类精度(见章节V-A)。由于作者总共有20个信噪比数据集,使用单个信噪比的训练相当于使用整个数据集的50% /20 = 2.5%进行训练。作者注意到,对于所有3种架构,使用具有代表性的SNR进行训练,总是在高测试SNR值时给出更高的分类精度,而不是使用规模更大的50% /16 =整个数据集的3.125 %的统一数据集。在低信噪比下进行测试时也会出现类似的现象,选择一个具有代表性的低信噪比值进行训练,这表明如果作者对分类器的信噪比值范围有一个很好的估计,那么只使用具有代表性的信噪比值的训练集来加快训练时间要优于对所有信噪比值的训练集进行均匀采样。但是,如果没有这样的估计,则首选统一选择,因为当训练的信噪比和测试的信噪比值之间存在显著的不匹配时,统一选择的性能更好,如图25、26、27所示,在较低的信噪比下。

作者发现,只要训练数据大小至少是整个数据集大小的3.125%,这三个网络都能保持相对较高的准确率(在高信噪比下超过70%)。此外,CLDNN和LSTM架构——捕获长期依赖关系——对于更积极地减少训练数据集的大小是有弹性的。最后,值得注意的是,作者发现随着训练数据集大小的减少,训练时间以线性方式下降。

C.信噪比对的选择

从V -A节的结果中作者注意到,根据最优的训练信噪比值,大致有两个信噪比范围;高信噪比范围和轻度低信噪比范围。基于这一观察结果,作者在本节中使用一对信噪比值对应的数据集,研究存在一对在较宽的信噪比值范围内具有较高分类精度的数据集。

ResNet的信噪比对选择结果如图28所示。从图中作者可以看出,使用18db和0db进行训练产生了最好的整体精度。使用两个最高信噪比数据(18 dB和16 dB)进行训练,只有在高信噪比测试数据下才能获得较高的精度。16 dB和8 dB的组合也进行了测试,因为它们的高个体信噪比选择性能。使用低信噪比数据进行训练,其准确率仅为10%左右。这意味着训练数据包含太多的噪声,作者的模型无法识别每个调制方案的模式。使用-20 dB和0 dB进行训练,精度仅为0 dB左右,说明模型仅依赖于0 dB的训练数据。值得注意的是,在所有测试的SNR值中,一对SNR值可以获得最高的分类精度,SNR值范围从-6 dB到18 dB。

图29为CLDNN的信噪比对选择结果。在10db和8db的训练中,作者获得了高信噪比测试的最高准确度。之所以选择这两个特定的信噪比值,是因为它们具有较高的个体信噪比选择性能。仅使用两个最低信噪比数据进行训练会产生较低的精度,与ResNet的结果类似。与使用一对高信噪比数据进行训练相比,使用18 dB和0 dB进行训练,在-6 dB和0 dB之间的低信噪比值下,精度更高。模型训练使用-20分贝和0 dB能够保留一个精度在60%以上,即便是在高信噪比测试,ResNet不同的结果,提出的问题是否长期依赖-被LSTM层可以使蒸馏有用的信息从低信噪比数据集。然而,精度曲线仍然包含一个衰减的形状。

图30给出了LSTM架构信噪比对选择结果。对于两对高信噪比训练数据,18 dB + 16 dB和12 dB + 4 dB出现了高信噪比附近的测试精度。选择12dB和4dB作为强独立信噪比选择性能。有趣的是,LSTM在高信噪比测试中的准确性损失小于2%,而训练时间从最初设置的222秒/ epoch减少到23秒/ epoch。与其他成对的训练数据相比,使用18db和0db的训练仍然在0db到- 6db范围内给了作者更高的准确性。使用-20 dB和0 dB的训练在0 dB时产生了很高的精度,但在更高的信噪比时,精度会下降。总的来说,在所有测试的信噪比值中,18db和0db的训练产生了最高的平均精度,这与在每个范围中具有代表性的信噪比值的训练产生最好的结果的观点是一致的。使用一对高信噪比数据进行训练,只对高信噪比测试产生高精度。使用- 20db和0db进行训练时,在0db左右会产生一个精度峰值,但在更高的信噪比值时,会出现一条衰减曲线。通过使用18 dB和0 dB进行训练,作者可以获得与测试信噪比值范围内50%数据的训练相似的性能,同时减少了约90%的训练时间。

6.讨论

A.算法选择

在第三节中,作者介绍了五种不同的深度神经网络;都比[23]的CNN具有更高的分类精度。作者的结果表明,在低信噪比情况下使用CLDNN和ResNet架构,在高信噪比情况下使用LSTM和ResNet架构。在第四节中,作者研究了降低输入维数以提高训练速度的问题。结果表明,在低信噪比的情况下,使用主成分分析(PCA)来降低输入维数,在高信噪比的情况下使用子采样技术来降低输入维数。特别地,在高信噪比下,选择幅度值最大的样本可以获得最高的分类精度。这里值得注意的是,通过动态调整阈值,忽略幅度值低于阈值的到达样本,可以直接实现在线训练的幅度等级子采样。此外,在文献中已经考虑了在线版本的PCA的问题(见例[34])。在第五节中,作者研究了具有代表性的信噪比训练值的选择,同时仍然对训练后的网络进行总体考虑信噪比范围的测试。结果表明,与随机选择的相同大小的训练数据集相比,信噪比选择训练的有效性得到了验证。在考虑的信噪比范围从-20 dB到18 dB,作者发现选择一对信噪比值进行训练可以在较宽的测试信噪比值范围内获得较好的分类精度。

B.矩形或极坐标形式表示

作者从这项工作的研究中观察到,当输入到所有研究的网络时,当复样本以矩形形式表示时,作者获得了更好的性能,除了纯LSTM,在纯LSTM中,输入样本以极坐标形式表示更好。作者还观察到LSTM特别好——与其他体系结构相比,它可以区分不同的QAM星座(更多细节请参阅[1]和[32])。其根本原因在于这些调制类型依赖于幅度和相位的微小变化,因此,利用极坐标形式表示的输入数据和能够识别重复变化模式的LSTM分类器可以对这些调制类型提供较高的分类精度。这揭示了神经网络分类器对输入表示的敏感性。作者计划对未来的工作进行调查,是否可以通过两个并行架构处理数据,然后添加一个或多个密集层来了解哪种表示会导致手头任务的更好分类性能,从而减轻这种敏感性的影响。

C .长期依赖和跳过连接

除了CNN,本工作中提出的所有其他神经网络都是通过修改获得的,通过LSTM层捕获长期依赖关系,如在CLDNN和纯LSTM架构中,或者通过在非连续的层之间添加快捷连接来缓解逐渐消失的梯度问题,并为架构增加灵活性(参见[31]),如DenseNet和ResNet架构。作者认为,捕获长期依赖关系对考虑调制识别任务是有用的,因为它有助于识别符号到符号转换的重复模式;这种模式可以用作调制类型的签名。此外,添加快捷连接也很有用,因为考虑的调制类型数量相对较多,而且区分不同的调制对的性质也不同。虽然较深的网络可以在相似的调制类型之间绘制不同的特征,但这可能会导致较简单任务的过拟合,这需要通过激活快捷连接获得较浅的架构。

D.为什么降维会导致快速深度学习

最近解释深度学习的理论尝试发现,假设大部分的训练时间都花在压缩输入数据上(如[35])是非常合理的。作者认为这可能是导致作者在第四节和第五节中给出结果的关键原因,特别是在第四节-D中研究的幅度级次抽样中,作者发现即使使用较大的次抽样率,精度损失也最小。在未来的工作中,作者还计划研究使用自动编码器的隐藏层表示(参见例[31,第14章])来压缩输入数据。

E.未来工作:自动编码器去噪?

作者观察到无线通信问题(其中未知信道损伤带来的不确定性)与最近研究的神经网络对抗扰动防御问题(见例[36])之间有很强的相似性。例如,l2有界攻击将对应于与l2有界功率等效的信道噪声。对于后一个问题,最近发现使用去噪自动编码器特别有效的[37]。作者计划研究如何使用这些自动编码器体系结构来解决考虑过的问题。特别是,作者希望它们能让作者在低信噪比的情况下获得更好的分类精度,即使作者的训练数据集只包括在高信噪比的情况下采集的样本。

F.极简主义训练设置

在第四部分和第五部分,作者证明的可能性大大减少训练时间(近20倍),而招致损失最小精度(在高信噪比可能低至2%),通过各种想法减少训练数据集的大小,同时保留学习所需的相关信息。作者相信,这为旨在为实时自主无线通信部署深度学习算法的一系列研究打开了大门。对于未来的工作,作者感兴趣的是测试提出的想法的组合。例如,利用降噪自动编码器进行信噪比选择,将亚奈奎斯特采样技术与使用深层自动编码器的隐藏层表示相结合进行降维。基于这项工作中提出的初步结果,作者预见了这种方法的巨大潜力,使在线训练深度神经网络的任务成为可能,这对下一代无线通信系统至关重要。

7.结束语

在这项工作中,作者提出了快速的深度学习算法来区分10种不同的调制类型,在较宽的信噪比值范围内具有较高的分类精度。作者识别了低信噪比下性能最好的CLDNN和ResNet深度神经网络结构,以及高信噪比下性能最好的LSTM和ResNet结构。此外,作者的结果建议使用PCA来降低输入维数,以在低信噪比下更快的训练,以及在高信噪比下基于样本幅度值进行子采样。作者终于确定代表培训信噪比的值,发现训练数据集对应于只有两个信噪比价值观——一个在高信噪比,另一个在低信噪比,在从-20年到18分贝范围导致实现高分类精度在宽范围的一部分。在未来的工作中,作者计划研究现有算法的最佳组合,以及使用降噪自动编码器等新方法。

参考文献

[1] X. Liu, D. Yang, and A. El Gamal, “Deep neural network architectures for modulation classification,” in Proc. IEEE Asilomar Conference on Signals, Systems and Computers, 2017.

[2] J. Sills, “Maximum-likelihood modulation classification for psk/qam,” in Proc. IEEE Military Communications Conference (MILCOM), 1999.

[3] A. Polydoros and K. Kim, “On the detection and classification of quadrature digital modulations in broad-band noise,” IEEE Transactions on Communications, vol. 38, no. 8, pp. 1199–1211, 1990. [4] P. Sapiano and J. Martin, “Maximum likelihood PSK classifier,” in Proc. IEEE Military Communications Conference (MILCOM), 1996.

[5] B. F. Beidas and C. L. Weber, “Asynchronous classification of MFSK signals using the higher order correlation domain,” IEEE Transactions on communications, vol. 46, no. 4, pp. 480–493, 1998.

[6] P. Panagiotou, A. Anastasopoulos, and A. Polydoros, “Likelihood ratio tests for modulation classification,” in Proc. IEEE Military Communications Conference (MILCOM), 2000.

[7] L. Hong and K. Ho, “Antenna array likelihood modulation classifier for BPSK and QPSK signals,” in Proc. IEEE Military Communications Conference (MILCOM), 2002.

[8] S.-Z. Hsue and S. S. Soliman, “Automatic modulation recognition of digitally modulated signals,” in Proc. IEEE Military Communications Conference (MILCOM), 1989.

[9] L. Hong and K. Ho, “Identification of digital modulation types using the wavelet transform,” in Proc. IEEE Military Communications Conference (MILCOM), 1999.

[10] A. Swami and B. M. Sadler, “Hierarchical digital modulation classification using cumulants,” IEEE Transactions on communications, vol. 48, no. 3, pp. 416–429, 2000.

[11] G. Hatzichristos and M. P. Fargues, “A hierarchical approach to the classification of digital modulation types in multipath environments,” in Proc. IEEE Asilomar Conference on Signals, Systems, and Computers, 2001.

[12] S. S. Soliman and S.-Z. Hsue, “Signal classification using statistical moments,” IEEE Transactions on Communications, vol. 40, no. 5, pp. 908–916, 1992.

[13] L. Lichun, “Comments on signal classification using statistical moments,” IEEE Transactions on Communications, vol. 50, no. 2, p. 195, 2002.

[14] L. Mingquan, X. Xianci, and L. Lemin, “AR modeling-based features extraction of multiple signals for modulation recognition,” in Proc. IEEE International Conference on Signal Processing, 1998.

[15] B. G. Mobasseri, “Digital modulation classification using constellation shape,” in Proc. IEEE International Conference on Signal Processing, 2000.

[16] L. Mingquan, X. Xianci, and L. Leming, “Cyclic spectral features based modulation recognition,” in Proc. International Conference on Communication Technology (ICCT), 1996.

[17] E. E. Azzouz and A. K. Nandi, “Modulation recognition using artificial neural networks,” Signal Processing, vol. 56, no. 2, pp. 165–175, 1997.

[18] K. E. Nolan, L. Doyle, D. O’Mahony, and P. Mackenzie, “Modulation scheme recognition techniques for software radio on a general purpose processor platform,” in Proc. Joint IEI/IEE Symposium on Telecommunication Systems, Dublin, 2001.

[19] K. Kim and A. Polydoros, “Digital modulation classification: the BPSK versus QPSK case,” in Proc. IEEE Military Communications Conference (MILCOM), 1988.

[20] N. E. Lay and A. Polydoros, “Per-survivor processing for channel acquisition, data detection and modulation classification,” 1994.

[21] C.-S. Park, J.-H. Choi, S.-P. Nah, W. Jang, and D. Y. Kim, “Automatic modulation recognition of digital signals using wavelet features and SVM,” in Proc. International Conference on Advanced Communications Technology, 2008.

[22] L. De Vito, S. Rapuano, and M. Villanacci, “Prototype of an automatic digital modulation classifier embedded in a real-time spectrum analyzer,” IEEE Transactions on Instrumentation and Measurement, vol. 59, no. 10, pp. 2639–2651, 2010.

[23] T. O’Shea, J. Corgan, and T. Clancy, “Convolutional radio modulation recognition networks,” in Proc. International conference on engineering applications of neural networks, 2016.

[24] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[25] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks.” in Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[26] T. O’Shea, T. James, T. Roy, and T. Clancy, “Over-the-air deep learning based radio signal classification,” IEEE Journal of Selected Topics in Signal Processing, vol. 12, no. 1, pp. 168–179, 2018.

[27] T. N. Sainath, O. Vinyals, A. W. Senior, and H. Sak, “Convolutional, long short-term memory, fully connected deep neural networks,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015.

[28] N. E. West and T. O’Shea, “Deep architectures for modulation recognition,” in International Symposium on Dynamic Spectrum Access Networks (DySPAN), 2017.

[29] T. O’Shea and N. West, “Radio machine learning dataset generation with gnu radio,” in Proc. GNU Radio Conference, 2016.

[30] Y. C. Eldar, Sampling Theory: Beyond Bandlimited Systems. Cambridge University Press, 2015.

[31] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT Press, 2016.

[32] S. Rajendran, W. Meert, D. Giustiniano, V. Lenders, and S. Pollin, “Deep learning models for wireless signal classification with distributed low-cost spectrum sensors,” IEEE Transactions on Cognitive Communications and Networking, vol. 4, no. 3, pp. 433–445, 2018.

[33] K. Pearson, “On lines and planes of closest fit to systems of points in space,” Philosophical Magazine, vol. 2, no. 11, pp. 559–572, 1901.

[34] C. Boutsidis, D. Garber, Z. Karnin, and E. Liberty, “Online principal component analysis,” Available at: http://cswww.cs.yale.edu/homes/el327/papers/opca.pdf.

[35] A. M. Saxe, Y. Bansal, J. Dapello, M. Advani, A. Kolchinsky, B. Tracey, and D. Cox, “On the information bottleneck theory of deep learning,” in Proc. International Conference on Learning Representations (ICLR), 2018.

[36] L. Huang, A. D. Joseph, B. Nelson, B. Rubinstein, and J. Tygar, “Adversarial machine learning,” in Proc. AMC Workshop on Security and Artificial Intelligence, 2011.

[37] R. Sahay, R. Mahfuz, and A. El Gamal, “Combatting adversarial attacks through denoising and dimensionality reduction: A cascaded autoencoder approach,” Arxiv preprint arXiv:1812.03087, Dec. 2018.

你可能感兴趣的:(深度学习,人工智能,神经网络)