摘要:在这项工作中,探讨了深度学习在无线信号调制识别任务中的应用价值。最近在[1]中,引入了一个框架,通过使用GNU无线电生成一个数据集,该数据集模拟真实无线信道中的缺陷,并使用10种不同的调制类型。此外,还开发了一种卷积神经网络(CNN)体系结构,其性能优于基于专家特征的方法。在这里,遵循[1]的框架,找到比现有技术更精确的深层神经网络结构。测试了[1]的体系结构,发现它可以达到大约75%的正确识别调制类型的精度。首先优化了[1]的CNN结构,并找到了一种具有四个卷积层和两个稠密层的设计,在高信噪比下,其精度约为83.8%。然后,基于最近引入的残差网络(ResNet[2])和稠密连接网络(DenseNet[3])的思想开发体系结构,以分别获得大约83.5%和86.6%的高信噪比精度。最后,引入了一个卷积的长-短期深神经网络(CLDNN[4]),在高信噪比下可以达到大约88.5%的精度。
一、简介
信号调制是无线通信系统中的一个重要环节。调制识别任务通常用于信号检测和解调。只有信号接收器正确解调信号,信号传输才能顺利进行。然而,随着无线通信技术的快速发展和高端化的要求,无线通信系统中使用的调制方法和参数也在迅速增加。因此,如何准确识别调制方法的问题变得更具挑战性。
传统的调制识别方法通常需要信号和信道参数的先验知识,在温和的情况下可能不准确,需要通过单独的控制信道进行传输。因此,在无线系统中,随着环境的变化,调制方式会频繁变化,因此需要对调制方式进行自主识别。这就需要考虑使用深层神经网络的新调制识别方法。
近年来,深度神经网络(DNN)在视频、语音和图像处理等领域发挥了重要作用。最近,通过将卷积神经网络(CNN)应用于无线电调制识别任务,将深度学习的思想引入通信领域[1]。
卷积神经网络(CNN)最近被认为是图像分类和语音信号处理的有力工具。在自然语言处理和视频检测等其他领域也有成功的尝试。基于CNN在特征提取方面的卓越性能,文[1]中引入了一种简单的CNN结构来区分10种不同的调制方式。仿真结果表明,与目前基于专家的方法相比,CNN不仅具有更好的精度,而且具有更大的灵活性[1]。然而,CNN面临着诸如梯度消失或爆炸、达到一定网络深度后精度下降等问题。已经尝试解决上述问题。最值得注意的是,最近引入了残差网络(ResNet)[2]和稠密连接网络(DenseNet)[3],通过在网络的不同层之间创建快捷路径来加强特征在神经网络中的传播。这个模块用残差学习可以容易的去得到最优的结果。通过添加旁路连接,建立身份映射,允许深层网络学习一些简单的函数,这些函数需要一个较浅的网络来学习。
最近,文献[1]提出了一种卷积长短期深度神经网络(CLDNN),它利用CNN、LTSM和DNN的互补性,将CNN和LSTM的结构结合再一个深度神经网络[4]。LSTM单元是递归神经网络(RNN)的存储单元。RNN是一种具有记忆功能的神经网络,适用于语音识别和手写体识别等序列学习任务。LSTM通过在其储存单元中使用一个遗忘门来优化RNN中的梯度消失问题,这使得学习长期依赖关系成为可能。
由于传统的无线信道模型可能不精确,在我们的实验中,我们使用了[1]中生成RadioML2016.10b数据集作为输入数据集。数据的生成方式可以捕捉到使用GNU无线电的真实系统中存在的各种信道缺陷。本文针对调制识别任务,开发了ResNet、DenseNet和CLDNN的体系结构。使用文献[1]中生成的相同数据集,我们在高信噪比下实现了大约13.5%的准确度改进,与文献[1]中提出的最先进的体系结构相比。通过更好地提取空间和时间特征,可以提高精度。
二、模拟设置
使用[1]中生成的RadioML2016.10b数据集作为我们研究的输入数据。有关生成此数据集的详细信息,请参见[5]。此数据集包含10种调制类型:8种数字调制和2种模拟调制。它们包括用于数字调制的BPSK、QPSK、8PSK、QAM16、QAM64、BFSK、CPFSK和PAM4,以及用于模拟调制的WBFM和AM-DSB。对于数字调制,整个古腾堡莎士比亚作品使用ASCII码,与白化随机化应用,以确保平等的符号和位。在模拟调制中,连续的语音信号被用作输入数据,它主要由有一些间隔和关闭时间的声学语音组成。整个数据集是在GNU无线电中生成的128个样本复时域向量。通过128个样本的矩形窗口处理,将16万个样本分割成训练和测试数据集,类似于语音识别任务中加窗的连续声语音信号。训练样本由128个样本组成,以2*128个向量输入神经网络,实部和虚部在复时间样本中分开。输入数据中的标签包括信噪比地面真值和调制类型。样品的信噪比在20dB到+18dB范围内均匀分布。所有的培训和测试都是在Keras中使用Nvidia M60 GPU完成的。在深度学习lib库中,使用Adam(6)作为Keras的优化器,并使用TeaNo作为后端。
2.1、评估网络
从一个类似于[1]中的CNN2网络的卷积神经网络结构开始,它使用两个卷积层的深度神经网络执行盲时间学习,在高信噪比下达到75%的准确率;与当前的方法相比有更好的性能[1]。训练基于几种神经网络结构:卷积神经网络(CNN)、密集连接卷积网络(DenseNet)[3]、残差网络(ResNet)[2]和卷积长短期深神经网络(CLDNN)[4]。对于CNN,优化了以下超参数:学习率、辍学率、滤波器大小、滤波器数目和网络深度。我们在每一层尝试不同的卷积层序列和滤波器数目的组合,以获得最佳的精度结果。还通过在CNN2模型上添加更多的卷积层来开发更深层的网络,并从图2所示的体系结构中获得最佳精度,其中四个卷积层后面是两个密集层。每个卷积层下面的第一个参数表示该层中滤波器的数目,而第二个和第三个数字表示每个滤波器的大小。对于这两个密集的层,有128个和11个神经元,按深度排列。
受ImageNet 2015[2]的优胜者架构的启发,应用ResNet架构和测试架构,卷积层的数量增加到8层。从图3所示的四个卷积层ResNet架构中获得了最佳的分类精度。第一层的输出被转发到更深层的第二层。这种结构通过显式地让每个层叠层适合于一个残差映射来缓解梯度消失问题[2]。超参数的选择是根据我们从简单的CNN结构中所做的基本观察来选择的,即在输入层附近有较大的滤波器,然后在靠近输出层的小滤波器之后,可以显著提高精度。
与ResNet相比,DenseNet进一步改进了层间的信息流,因为每个层都从前面的所有层获取额外的输入,并将自己的特征映射传递给所有后续层[3]。DenseNet架构如图4所示,其中四个卷积层彼此紧密连接,输出被送入两个密集层中。我们设定卷积层的参数以达到最佳的精度。
最后,提出了一个包含长短期内存单元的CLDNN体系结构。CLDNN主要用于涉及原始时域波形的语音处理任务[4]。它是CNNs、长短时记忆(LSTM)和深层神经网络(DNN)的结合。在设置中,在CNN中选择四个卷积层,然后是一个LSTM层,有50个计算单元和一个两个卷积层DNN(见图5)。在LSTM层测试了不同的CLDNN体系结构和不同数量的存储单元。实验表明,与其他层设置相比,具有50个单元的LSTM层给出了最佳的精度结果。
2.2、训练复杂性
使用一个NVIDIA M60 GPU对96000个训练实例和64000个验证和测试实例的计算时间对于不同的模型有很大的不同。在CNN中,只有两个卷积层的最简单模型每个epoch大约需要15秒,而具有四个卷积层的CNN则需要大约400秒。注意到高dropout率可能会减慢训练速度,但会减少过度适应。在我们的设置中,将dropout率设置为0.6,这高于[1]中使用的速率,并且每个隐藏层中的激活函数是一个校正的线性单位(ReLU)函数。将耐性设置为10,当有三层和四层卷积层时,可以容忍非收敛性验证丢失的时间,总训练时间约为半小时。当网络变深时,验证损失减少需要10个以上的训练周期,因此将“耐心”设置为20会产生较小的验证损失,这意味着更高的准确性。为了获得更好的结果,我们在其余的模型中将“耐性”设置为20。在这三种模型中,每历元大约需要1000秒。DenseNet模型的总训练时间约为70小时,ResNet模型约为20小时,CLDNN模型约为50小时。
三、结果
3.1、卷积神经网络
从一个基本的两个卷积层神经网络开始,其中两个卷积层分别具有256个1*3滤波器和80个2*3滤波器,然后是两个密集层。然后通过在两个卷积层之间交换滤波器设置来探索不同滤波器设置的效果。不同滤波器设置下的网络性能表明,在高信噪比条件下,早期卷积层较大滤波器和较深卷积层较小滤波器的分层结构优化了精度。
接下来,通过增加卷积层的数量从2层增加到5层来探索CNN的最佳深度。发现,在高信噪比下,最佳精度约为83.8%。当使用图2所示的四卷积层体系结构时,可以获得最佳的精度。这比两个卷积层模型有了8.8%的显著改进。由于较低的损耗对应更高的精度,平滑地减小损耗表明网络的学习效果与四卷积层模型的学习效果一样好。当神经网络越深,验证损失收敛的可能性就越小。对于五层和六层卷积模型,在训练过程中会出现较大的损失振动,这意味着这些神经网络所获得的最小损失大于四卷积层模型,导致分类性能较差。
3.2、残差网络
发现,将残差网络与原始CNN架构相结合显示出与纯CNN架构相似的性能。与CNN的结果类似,将ResNet与四卷积层神经网络相结合时,可以获得83.5%的最佳性能,如图3所示。将ResNet与具有四个以上卷积层的网络体系结构相结合时,识别精度也开始下降。
3.3、密集全连接网络
因为更密集连接的块需要更深层的神经网络,在实验中,这确实导致了精度的下降,所以在CNN架构上只使用一个密集连接块来实现DenseNet。从一个三个卷积层DenseNet开始,不断地向网络中添加卷积层,直到精度开始下降。在高信噪比下,使用图4所示的四卷积层结构,可以获得86.6%的最佳精度。
3.4、CLDNN
CLDNN由于其固有的记忆特性可以识别输入信号中的时间相关性,因此在涉及视频、语音和图像等时域信号的识别任务中得到了广泛的应用。最近的工作也建议使用CLDNN来完成调制识别任务[7]。然而,在[7]中没有明确规定网络结构和获得的精度结果,因此无法复制这些结果并与我们的结果进行比较。应用了CLDNN体系结构,并将其性能与ResNet和DenseNet的结果进行了比较。在卷积部分之后,在网络中添加了一个LSTM单元。认为循环连接可以在信号中提取更多相关的时间特征。dn-do-do在图中所示的结果优于其他模型。在高信噪比下,该算法的准确率达到88.5%,是所有测试的神经网络结构中最高的。
在图9中,展示了混淆矩阵中最高信噪比情况下的分类结果。矩阵中除了干净的对角线外,还有两个主要的差异,即WBFM被误分类为AM-DSB,QAM16被误分类为QAM64。表一列出了错误分类对精度的影响的详细信息,其中百分比列中的数字表示错误分类为右侧调制类型的左侧调制类型的百分比。一小部分8PSK样本被误分类为QPSK,一小部分WBFM样本被误分类为GFSK;预计,进一步优化神经网络结构并可能增加深度将导致捕获这些细微的特征差异。进一步注意到,QAM16和QAM64很可能被错误地分类为彼此,因为它们在星座图中的相似性使得区分容易受到信号中的小噪声的影响。期望对输入信号进行适当的预处理可以帮助减少这些大的误分类率。WBFM分类也存在较大差异,很可能被认为是AM-DSB。我们认为这种差异可能是由于在模拟语音信号中只存在载波音的静默期。
四、讨论
通过在不同层之间创建快捷方式,ResNet和DenseNet架构缓解了渐变消失问题,并促进了特征重用。通过比较图8中ResNet和DenseNet的性能,注意到DenseNet通过在网络中包含更多的快捷连接,显示出比ResNet更出色的性能,从而进一步加强了在整个网络中的特征传播。
虽然ResNet和DenseNet结构在网络增长深度超过最佳深度时也会受到精度下降的影响,但是实验仍然表明,当使用相同的网络深度时,DenseNet和ResNet的收敛速度比普通CNN结构要低得多。图10显示了相同网络深度的ResNet、DenseNet和CNN相对于使用的训练时段数的验证错误。可以看到,ResNet和DenseNet在整个训练过程中开始时的验证误差明显较低,并且在整个训练过程中保持较低的验证误差,这意味着将ResNet和DenseNet结合到一个简单的CNN架构中确实可以使神经网络更有效地训练所考虑的调制分类任务。
最后应用了CLDNN体系结构,在所有测试的网络体系结构中取得了最好的性能。认为,CLDNN的良好性能是由于它的长期记忆能力,适合于时域无线电信号的因果特性。
五、结论
多个最先进的深度神经网络被应用于无线电调制识别任务。在一个深层神经网络结构中加入了卷积层、各种残差层和递归层来提取信号特征。研究发现卷积式长短期深度神经网络(CLDNN)可以提供最佳的分类结构,在文献[1]中引入的原始CNN模型的基础上,其精度提高了约13.5%。相信,无线电时域信号的因果关系导致了这种改进,因为已知递归网络在连续声学信号处理任务中表现良好。残差和密集连接的网络(ResNet和DenseNet)也表现良好,尽管最佳精度受网络深度的限制,但他们建议改变层之间的连接-特别是在非连续层之间创建捷径可以产生更好的分类精度。
参考文献
[1] Timothy J. O’Shea, Latha Pemula, Dhruv Batra, and T. Charles Clancy. ”Radio transformer networks: Attention models for learning to synchronize in wireless systems.” In Signals, Systems and Computers, 2016 50th Asilomar Conference on, pp. 662-666. IEEE, 2016.
[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. CoRR, abs/1512.03385, 2015.
[3] Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[J]. arXiv preprint arXiv:1608.06993, 2016.
[4] T. N. Sainath, O. Vinyals, A. Senior, and H. Sak. Convolutional, long short-term memory, fully connected deep neural networks. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 45804584, April 2015.
[5] O’SHEA, Timothy J; WEST, Nathan. Radio Machine Learning Dataset Generation with GNU Radio. Proceedings of the GNU Radio Conference, [S.l.], v. 1, n. 1, sep. 2016.
[6] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, CoRR, vol. abs/1412.6980, 2014. [Online]. Available: http://arxiv.org/abs/1412.6980.
[7] N. E. West and T. O’Shea, ”Deep architectures for modulation recognition,” 2017 IEEE International Symposium on Dynamic Spectrum Access Networks (DySPAN), Piscataway, NJ, 2017, pp. 1-6.