Data Augmentation for Deep Learning-based Radio ModulationClassification解读(基于深度学习的无线电调制分类数据扩充)

摘要:深度学习最近被应用于自动分类接收无线电信号的调制类别,而无需人工经验。然而,训练深度学习模型需要大量的数据。训练数据不足会导致严重的过度拟合问题,降低分类精度。为了处理小数据集,数据增强被广泛应用于图像处理中,以扩展数据集,提高深度学习模型的鲁棒性。然而,在无线通信领域,不同的数据增强方法对无线电调制分类的影响还没有得到研究。在该文中,通过基于深度学习的调制分类器来评估不同的数据增强方法。根据调制信号的特点,考虑了三种增强方法,即旋转、翻转和高斯噪声,它们可以应用于深度学习算法的训练阶段和推理阶段。数值结果表明,三种增广方法都能提高分类精度。其中,旋转增强方法的分类精度优于翻转增强方法,两者都比高斯噪声方法的分类精度高。假设只有12.5%的训练数据集,联合旋转和翻转增强策略可以实现比初始100%训练数据集的基线更高的分类精度。此外,随着数据的增加,可以使用更短的无线电样本成功地对无线电调制类别进行分类,从而简化深度学习模型并缩短分类响应时间。

1.引言

得益于计算能力和大数据的提高,深度学习在许多应用领域取得了前所未有的发展,如语音和音频处理、自然语言处理、目标检测等。近年来,它在无线通信领域也取得了巨大的发展,例如,调制分类、符号检测、端到端通信[6]和移动边缘计算。

基于深度学习的调制分类自动调用,在没有先验知识的情况下高效地对接收信号进行分类。调制分类是无线通信系统中许多应用的基础步骤,如认知通信系统中的频谱管理和安全通信中的非授权信号检测。传统的调制分类方法要么计算复杂度高,要么严重依赖人工操作。最近,深度学习被成功地引入到信号分类中,它将原始信号数据或其转换馈送到深度神经网络,并在网络输出处立即获得调制类别。与传统的基于专家特征(如基于高阶累积量的特征)的自动调制分类方法相比,它实现了更高的分类精度,同时需要少量额外的计算开销和计算时间。

尽管基于深度学习的方法可以极大地提高调制分类器的性能,但它需要大量的训练样本。然而,在实践中,收集大量高质量和可靠的训练无线电样本有时成本高昂且困难。数据扩充通过人工扩展训练数据集和保持标签的变换来解决训练数据不足的问题。文献中提出了不同的数据增强方法,即图像分类中的随机裁剪、旋转和镜像以及语音识别中的基音偏移、时间拉伸和随机频率滤波[22]。对于基于深度学习的无线电调制分类,数据增强可以提高其不变性,特别是对于小的无线电信号数据集。

增强调制无线电信号类似于图1所示的增强图像。具体而言,我们考虑了三种基本的增强方法,即旋转、翻转和高斯噪声,用于图像和正交相移键控(QPSK)调制的星座图中所示的无线电信号样本。对于图像,在旋转或翻转增强后,显示相同的cat,但从不同的视点显示。在QPSK调制无线电信号的星座图中,黑色圆圈表示四个理想参考点,红色十字表示由于发射机/接收机硬件和无线信道的不完善而移动的接收符号。在图1中,我们考虑两个具有正相移(1, 1)和(- 1, 1)的接收符号,它们从它们的参考点逆时针偏移。

在无线通信中,每个接收到的符号将根据传输的内容解调并映射到其中一个参考点。经过旋转增强后,产生了两个新的符号( -1,1 )和( - 1,- 1),如图1 ( b )所示,他们也是正相移的。因此,对于本文考虑的无线电调制分类任务,旋转调制后的无线电信号类似于旋转一幅图像,不丢失特征进行分类。然而,翻转无线电信号产生两个新的QPSK调制符号,其相位在顺时针方向上负移,如图1(c)所示。尽管旋转和翻转增强方法在图像分类方面都取得了类似的精度改进,但对于无线电调制分类而言,哪一种方法更可取仍是一个悬而未决的问题。高斯噪声增强后,图像中充满了“雪”,接收到的无线电符号如图1(d)所示发生偏差。这三种增强方法能否提高基于深度学习的无线电调制分类的分类精度?尚未评估不同数据增强方法对无线电调制分类的影响。

本文研究了基于深度学习的无线电调制分类的数据扩充方法。具体而言,使用最先进的基于深度学习的调制分类器来自动分类每个无线电信号样本的调制类别。根据调制信号的特点,研究了三种增强方法,即旋转、翻转和高斯噪声。在对开放无线电信号数据集进行广泛的数值评估后,获得了以下贡献:

(1) 提出了在深度学习算法的训练阶段和推理阶段增强无线电信号的算法,在分类精度方面比基线提高了约2.5%。

(2)旋转增强方法优于flip方法,两者都比高斯噪声方法具有更高的分类精度。

(3) 针对训练数据量不足的问题,提出了一种同时使用旋转和翻转方法的联合增广策略。考虑到只有12.5%的训练数据集,联合增强方法将数据集扩展为初始数据集的75%,并且实现了比没有增强的100%训练数据集的基线更高的分类精度。

(4)通过数据增强,仅用一半的采样点就成功地对无线电样本进行分类。因此,可以简化深度学习模型,显著降低推理复杂度。此外,在未来的现场部署中,只接收一半的无线电采样点就可以成功地对调制类别进行分类,从而大大减少了分类响应时间。

本文的其余部分组织如下。第二节介绍了相关工作。第三节概述了所研究的无线电信号数据集和基于深度学习的调制分类器。我们在第四节中介绍了三种数据增强方法,并在第五节中提出了在两个深度学习阶段增强信号的算法。在第六节中,我们给出了仿真设置和最终实验结果。在第七节中,我们最后总结了本文。

2.相关工作

A.无线电调制分类中的深度学习

在最近的文献中,深度学习已被应用于自动分类无线电调制类别。通过将无线电信号转换为图像,两个基于卷积神经网络(CNN)的深度学习模型,GoogleNet和AlexNet,最初用于图像分类,用于调制分类。调制分类精度通过改进的深剩余网络(ResNet)进一步提高,该网络由调制同相(I)和正交相位(Q)信号馈送。考虑到信道干扰,CNN结构也达到了相当高的分类精度。除了基于CNN的模型外,具有随时间变化的振幅和相位信息的长短时记忆(LSTM)体系结构可以实现艺术状态分类精度。为了减少深度学习模型的训练时间,研究了不同的子采样技术,这些技术降低了输入信号的维数。

B.深度学习中的数据扩充

数据扩充广泛应用于深度学习算法中,以增加训练数据集的多样性,防止模型过度拟合,提高模型的鲁棒性。对于图像分类任务,通用的数据增强方法包括抖动、旋转、裁剪、颜色抖动、边缘增强和奇特的PCA。其他复杂数据增强方法从两个训练图像或生成性对抗网(GAN)合成新图像。尽管有许多图像增强方法,但AutoAugment被提议基于数据集自动搜索增强策略。除图像外,文本分类还使用了同义词替换、随机插入、随机交换和随机删除等增强方法,当只有一半的训练数据可用时,所有训练数据的准确度与正常值相同。对于语音识别任务,通过改变音频速度、扭曲特征、频率通道掩蔽块和时间步长掩蔽块来增强训练音频。

文献中关于无线电调制分类数据增强的相关工作很少。最相关的工作是文献提出的一种基于GAN的数据增强方法。作者首先将信号样本转换为轮廓恒星图像,然后利用轮廓恒星图像对GAN网络进行训练,从而生成新的信号训练样本。采用GAN基增强,调制分类精度提高不超过6%。然而,训练GAN网络仍然需要足够的信号样本来保证收敛性。此外,在信号样本量相同的情况下,基于增强数据集的分类精度低于基于真实数据集的分类精度。因此,对于不足的无线电信号数据集,仍然缺乏一种有效的增强方法。

3.准备工作

在本节中,将介绍无线信号数据集和最先进的LSTM模型的体系结构[34],该模型将用于评估第4节中介绍的不同数据增强方法。

A.无线电信号数据集

评估了基于开放无线电信号数据集RadioML2016.10a的无线电信号调制分类。数据集中的无线电信号考虑采样率偏移、中心频率偏移、多径衰落和加性高斯白噪声。具体而言,有220000个调制无线电信号段,属于11种不同的调制类别,即二进制相移键控(BPSK)、QPSK、八相移键控(8PSK)、连续相移频移键控(CPFSK)、高斯频移键控(GFSK)、脉冲幅度调制四(PAM4),正交幅度调制16(QAM16)、正交幅度调制64(QAM64)、双边带AM(AM-DSB)、单边带AM(AM-SSB)和宽带FM(WB-FM)。每个无线电信号样本由128个连续调制同相(I)信号和正交相位(Q)信号组成。每个信号样本的标签包括其信噪比(SNR)值及其相应的调制类别。总共有20种不同的SNR,范围从-20dB到18dB,步长为2dB。在数据集中,这220000个信号样本均匀分布在11个调制类别和20个SNR中。换句话说,在每个SNR下,每个调制类别有1000个信号样本。在图2中,以星座图的形式绘制了不同SNR下11种调制类别的示例。在下一小节中,将介绍一种深度学习算法,该算法根据原始I/Q信号自动预测无线电的调制类型。

B.LSTM网络架构

LSTM是递归神经网络(RNN)的一个特殊类别,广泛用于处理时间序列数据。得益于特定的LSTM存储单元机制,LSTM有效地解决了传统RNN在训练过程中的梯度爆炸和消失问题,并学习序列数据中的长期依赖关系。LSTM存储单元主要由遗忘门、输入门和更新门组成[35],实现输入信息的选择性保留和丢弃。

LSTM网络将具有连续调制同相(I)和正交相位(Q)信号的每个数据样本作为输入,并将它们映射到特定调制类别。其中A和φ分别表示调制信号的振幅和相位。然后将获得的信号送入两层LSTM网络以提取特征特征,其中每层有128个LSTM单元。最后,使用具有Soft max功能的全连接层将无线电信号样本映射到这11种调制类别之一。具有动态学习率的Adam优化器用于最小化交叉熵损失。

4.数据扩充方法

数据扩充是一种广泛应用于深度学习的方法,因为它提高了模型的泛化能力,并减少了过度拟合。详细描述了三种用于调制信号识别的数据增强方法,包括旋转、翻转和高斯噪声。数据集按比例因子N展开。

A.旋转

通过围绕其原点旋转调制无线电信号,获得如下的增强信号样本。

B.翻转

对于给定的调制无线电信号,通过将I值切换到其相反方向来定义水平翻转,并通过将Q值切换到其相反方向来定义垂直翻转来增强无线电信号。可以同时执行水平翻转、垂直翻转或双向翻转,以便信号数据集按比例因子N=4展开。

C.高斯噪声

通过将高斯噪声添加到调制无线电信号,获得增强信号样本。通过添加具有不同标准偏差σ=0、σ=0.0005σ=0.001和σ=0.002的高斯噪声来显示增强信号样本。对于每个数据增强方法,原始无线电信号数据集通过默认比例因子N=4进行扩展。请注意,高斯噪声数据增强应该通过选择足够多不同的σ值来显著扩展数据集。然而,在下一节中,将说明高斯噪声数据增强并不是无线电数据增强的首选方法。

5.数据扩充时间

深度学习算法的执行包括训练阶段和推理阶段。数据扩充可在两个阶段执行,从而产生三种可能的扩充组合,即测试时间扩充、训练时间扩充和训练测试时间扩充。

A.增加训练时间

训练时间扩充在模型的训练阶段执行数据扩充。也就是说,在测试数据集保持不变的情况下,通过比例因子N对训练数据集进行扩充和扩展。以轮换数据扩充为例,对训练数据集进行时间扩充后,训练数据集从11万个无线信号样本扩展到44万个样本。通常,较大的训练数据集会导致较高的调制分类精度。

B.测试时间增加

测试时间增加融合推理阶段所有增强无线电信号样本的特征。在推理阶段,将测试数据集中的一个无线电信号样本(I,Q)扩充为N个样本。然后将每个增广样本送入LSTM网络,得到相应预测概率的向量。通过对所有N个增强样本的预测概率求和,并选择会议次数最大的样本,确定预测调制类别。

C.训练测试时间增加

训练测试时间增加执行列车时间增加和测试时间增加,其中,培训和测试数据集均增加并扩展系数N。

研究了数据增强在不同阶段的性能,其中考虑了比例因子N=4的旋转增强。在信噪比大于-10db的情况下,与无增强的基线相比,不同相位的增强都能提高分类精度。训练时间增量比测试时间增量具有更好的性能,训练测试时间增量产生的精度最高。具体而言,与基线相比,当信噪比为-6dB时,训练测试时间增加将调制分类精度提高8.87%,当信噪比大于4dB时,提高约2.2%。在以下数值研究中,我们默认使用训练试验时间增加。

6.增强性能

在本节中,研究了不同无线电数据增强方法在调制分类精度方面的性能。将开放数据集RadioML2016.10a等分为训练数据集和测试数据集,每组包含11万个无线电信号样本。为了避免过度拟合,我们将两个LSTM层的退出率设置为0.5。训练历元数为80,最小批量为128。学习率的值最初设置为0.001,当连续三个时期的训练精度没有提高时,学习率的值将减半。该模型是基于PyTorch实现的。

A.对完整数据集的扩充

研究了VI中所有3种数据增强方法部署后LSTM模型的调制分类精度。与没有增强的基线相比,所有增强方法在信噪比大于-10dB时都提高了分类精度,特别是对于旋转数据增强和翻转数据增强。特别是,当信噪比介于-6dB和-2dB之间时,旋转数据增强方法实现了8%的最大改进,而在较高信噪比时,旋转数据增强方法实现了约2%的最大改进(≥4dB)。同时,当信噪比介于-16dB和-10dB之间时,高斯噪声数据增强在较低的信噪比下表现更好。直观地说,添加高斯噪声会降低原始数据样本的信噪比,从而产生更多低信噪比的信号样本。然而,这种改进是微不足道的,因为得到的分类精度太小,当信噪比小于10 dB时小于2%。因此,在调制分类中,旋转数据增强和翻转数据增强更适合用于无线电信号。

为了进一步评估不同增强方法对分类精度的改进,给出了低信噪比(-2dB)和高信噪比(18dB)下相应的混淆矩阵。经过论证后,这些矩阵对角线项的大多数值都增加了,这意味着调制分类精度得到了提高。具体而言,提出的增强方法成功地减少了QAM16和QAM64之间的混淆。在低信噪比下,LSTM模型很难对8PSK和QPSK进行分类,经过旋转增强后分类精度大大提高。在高信噪比下,LSTM模型的精度主要受限于AM-DSB和WBFM之间的混淆,这是由于数据集中没有信息的频繁无线电样本造成的。一般来说,对于所有调制类别,旋转和翻转比高斯噪声取得更好的分类精度。

B.部分数据集的扩充

进一步研究了在训练数据集不足的情况下不同数据增强方法的性能。为了形成新的训练子数据集,从最初的110000个无线电信号训练样本中随机抽取部分无线电信号样本,即初始训练数据集的12.5%。然后,通过输入获得的训练子数据集对LSTM网络进行训练,并使用初始110000个无线电信号测试样本对其进行测试。注意,12.5%的训练数据集不足以训练LSTM网络,导致在高SNR下的低调制分类精度约为45%。在部署不同的无线电数据增强方法后,分类精度得到了提高。如预期,旋转增强和翻转增强都优于高斯噪声数据增强。有趣的是,当训练子数据集在增强后进行尺度因子N = 4的扩展时,在相同大小的50 %初始数据集中,旋转/翻转增强通过训练未增强的50 %初始数据集的LSTM,获得了比基线更高的分类精度,约0.04 % - 4.03 %。

为了进一步评估关节旋转和翻转增强的优势,在图10中展示了不同增强方法中的混淆矩阵,其中训练数据集为12.5%,为18dB。当训练数据集不足时,难以对BPSK、WBFM、QAM16和QAM64进行分类,联合增强后分类精度显著提高。具体来说,在减少QAM16和QAM64之间的混淆方面,关节增强的性能优于旋转增强和翻转增强。

还评估了另一种使用所有三种增强方法的联合增强。然而,在联合旋转和翻转增强中加入高斯噪声方法会略微降低分类精度。因此,认为旋转和翻转方法都是无线数据增强的首选方法,可以联合应用进一步提高增强性能。

C.短样本增强

进一步评估了具有较少采样点的调制无线电信号的数据增强方法。我们将每个原始的128点无线电信号样本减半为两个新样本,并获得一个由44万个64点无线电信号样本条目组成的新数据集。与之前的评估类似,随机选择其中一半到LSTM网络,并使用剩余的一半数据集进一步测试。使用较短的无线电信号样本,每个LSTM层中的LSTM单元的数量从128个减少到64个,从而产生更简单的推断模型。具体而言,LSTM网络的参数数量从201.1K减少到54.1K,浮点运算的推理复杂度从2.8K减少到1.4K。

使用64点无线电样本评估调制分类。如果不增加,64点调制无线电样本的分类精度总是比128点的基线低,当信噪比大于0 dB时,分类精度降低约8%。在部署旋转或翻转增强后,分类精度得到了提高。特别是,在高信噪比下,联合旋转和翻转增强可以实现比基线高1%的分类精度。因此,随着数据的增加,仅在接收到一半数量的采样点时就可以成功地对无线电信号调制进行分类,这显著减少了分类响应时间。

研究了基于深度学习的调制分类的无线电数据增强方法。具体来说,基于一个著名的LSTM模型,研究了三种典型的增强方法,即旋转、翻转和高斯噪声。WEFST首先研究了训练和推理阶段的无线电数据增强,发现训练测试时间增强达到了最高精度。然后,基于全部和部分训练数据集对三种增强方法进行了数值评估。所有数值结果表明,旋转和翻转方法都比高斯噪声方法取得了更高的分类精度,旋转方法取得了最高的精度。同时,结合旋转和翻转方法的联合增广策略可以进一步提高分类精度,尤其是在训练样本不足的情况下。考虑到只有12.5%的初始训练数据集,联合增强方法将数据集扩展为初始数据集的75%,并且在没有增强的情况下获得甚至高于基线的100%训练数据集。此外,在部署数据增强后,可以仅基于无线电采样点的一半对无线电样本进行分类,从而简化了深度学习模型,缩短了分类响应时间。

你可能感兴趣的:(深度学习,分类)