调研笔记01-认知无线网络(Cognitive Radio Ad Hoc Networks)或者车联网(VANETs)下的频谱感知和频谱共享研究

认知无线网络(Cognitive Radio Ad Hoc Networks)或者车联网(VANETs)下的频谱感知和频谱共享研究

  • 引言
    • 以下是阅读认知无线网络相关书籍的一些笔记:
  • 认知无线网络中频谱感知技术的研究_黄博
  • 基于深度强化学习的动态频谱分配方法研究_叶梓峰
  • 基于深度强化学习的频谱分配研究_李雪扬
  • 总结
  • 参考

本人准研二,导师属于“放养型”。即将研二,不想继续浑浑噩噩地对待科研 (发不出文章,毕不了业咋整)
因此,开始准备了解课题组的研究方向,并在此记录所阅读文献的笔记(又挖了一个坑)。
目前科研入门和规划都能够咨询师兄们,非常感谢他们的帮助。

引言

以下是阅读认知无线网络相关书籍的一些笔记:

认知无线网络无线传输的思想是:
基于对环境的感知,自主生成匹配环境、满足用户业务需求的无线传输机制
智能控制机制和无线传输机制组成

协议:物理层、MAC(媒体接入控制)层、网络层和传输层及其联合优化设计;

无线传输技术:频谱感知、物理层传输波形设计、动态频谱接入(DSA)控制、认知多跳传输和联合优化设计。

  1. 频谱感知: 检测特定频道上 主用户(PU) 信号的活动情况,为认知无线网络系统寻找可用的空闲频段
  2. 物理层传输波形: 实现信息传输的物理载体。在CRN中进行物理层波形设计需要避免对PU造成有效干扰,最大化认知用户的传输容量,充分利用频谱资源;
  3. DSA: 寻找并高效利用可用的频谱机会来满足认知用户的需求
    由于授权用户的异构性和授权用户业务的多样性导致了CR用户可用的频谱的动态变化特性是难以预测,实际上更适合分布式的网络架构
    问题:公共控制信道(CCC)、频谱感知调度策略(何时,哪个,多少)、功率控制机制、多信道隐藏和暴露终端问题。
  4. 认知无线网络多跳传输技术: 包括中继路由传输控制机制
    认知用户自身无使用任何频段的使用权,由两种方式接入主用户频段:
    1)认知用户可以在确保主用户的通信不受影响的情况下机会式地利用授权频段的空洞进行数据传输,而主用户无需知道认知用户的存在和活动;
    2)认知用户可以通过与主用户之间的协商来获得在特定时间段内临时使用授权频段的权力。
  5. 认知无线传输的联合优化设计: 主要集中于物理层、数据链路层和网络层之间的联合优化
    1)数据链路层性能优化目标:主要考虑最小化掉包率以及最小化平均时延等;
    2)网络层性能优化目标 :主要考虑最小化端到端传输时延、最大化端到端传输速率以及最小化中继节点能耗等,优化手段包括自适应传输、功率控制、频谱资源接入和分配、数据包分组调度、网络路由、认知中继节点选择和资源分配

  总之,课题组主要研究方向以频谱感知和频谱分配为主。
  首要:认知无线电系统以择机的方式使用主用户网络的频谱资源,其频谱接入机会的统计规律取决于主用户网络对频谱的占用主用户网络的流量负荷参数,例开关过程的平均持续时间参数)。通常情况下,CR系统无法预知,但为了求解系统的状态转移概率、期望效用和期望代价,可引入强化学习方法

认知无线网络中频谱感知技术的研究_黄博

目的
1. 能量检测-无法确定检测信号参数、区分低信噪比下不确定的噪声且易受影响;
2. 匹配滤波检测-无法获取主信号和信道的先验信息(调制方式、脉冲波形);
3. 循环平稳特性检测-无法获取PU信号的循环频率;
4. 集中式协作频谱感知-FC易收到异常SU的干扰,且信息几何未解决系统鲁棒性
5. IQ分解逻辑上SU用户数,降低增加SU带来的开销;
6. CAV算法不需要知道先验知识,消除不确定噪声影响;
7. 聚类算法有效避免因判断阈值的复杂计算所带来的误差;
8. 多天线频谱感知降低信道衰减影响(阴影衰落、多径效用);
9. 基于信息几何数据融合方法降低异常SU的影响,提高鲁棒性;
(关键)方法(结论)
检测统计量
1. DBSCAN中将信号矩阵进行IQ分解,计算两组协方差矩阵,然后利用CAV算法(判断PU存在与否)得到检验统计量;
2. 信息几何中将一个用户信号进行
IQ分解
,然后将其映射至流形,利用2M个黎曼均值(判断PU是否存在),进行数据融合得到二维特征向量。
分类器
基于FCM(划分)DBSCAN(密度) 两种聚类算法;利用特征向量进行训练获得相应的分类器,最后判别是否存在PU。
收获
如何进行信号预处理;如何构造统计检测量;利用哪种聚类(算法)进行分类,如何选取度量方式
信号感知的特征向量为二维;频谱检测性能指标为检测概率和虚警概率,ROC曲线;
传统单用户频谱感知算法有1、2、3;信息几何中黎曼均值的概念;
问题:是否可利用GAN生成未知数据来解决复杂环境下感知问题?全部CUs时间不同步之下的频谱感知模型?

基于深度强化学习的动态频谱分配方法研究_叶梓峰

目的
1. 分配尽可能少的无限资源(频谱和功率资源)满足用户的QoS,避免对主用户造成干扰
2. 在约束条件下,次用户(SU) 学习如何选择合适的发射功率,研究目标是最大化所有次用户的总吞吐量(最大化总速率,不能保证单个SU满足);
3.(具有马尔可夫性的)动态功率控制和信道分配的联合问题中,考虑PU和SU的发射功率以及AP的信道选择(一定的随机性,复杂度高的算法);
4. 竞争深度Q网络避免网络得不到主用户的信号强度变化(微基站不能完全捕捉到主用户调整发射功率的行为),以及避免功率控制策略干扰主用户正常通信和数据传输(提高有效学习概率);
5. LSTM(深度Q网络) 能在多信道多用户的场景中整合收集部分可知观测信息(克服复杂问题的大空间状态和部分可观测性所引起的大计算量,快速适应动态性);
(关键)方法(结论)
模拟环境的复杂变化,主次用户位置与信道增益随机化
应用环境的动态性和复杂性,主用户采取不同的功率控制策略
功率控制
1. 优先记忆库结合竞争深度Q网络
1) 优先记忆库(PER)——DRL通常利用记忆库打破数据的关联性(要求数量足够大),PER对数据赋予优先级进行样本抽取(按权重采样),降低存储容量,提高算法收敛性;
2.) 竞争深度Q网络(dueling DQN)——特有的状态-动作分离层,即输出层前有两条数据流,状态Q值和动作advantage值。
2. 信道分配和功率控制联合
长短期记忆深度Q网络长短期记忆(LSTM)——特殊的RNN、一层长短期记忆层,包括忘记、选择性记忆和输出阶段,需要关联过去的经验,可以对信道的状态做出更好的估计,提高成功接入概率;
收获
了解到频谱分配中主要针对SU频率控制和信道分配问题;解决效用优化工具是博弈论;
强化学习中状态值-微基站接受到的信号强度,动作-CUs信号功率,奖励-SINR(衡量QoS);
认识CRN频谱管理框架(感知、切换、决策和共享),频谱资源分配目标函数,频谱接入技术(OFDMA,CDMA等);
频谱分配性能指标:损失函数值、奖励值、切换成功率、切换步数、SU公平性,信道累积冲突;
信道如何分配,通过信道增益,体现在SINR上
问题:是否有利用LSTM竞争深度Q网络(李_[31]);

基于深度强化学习的频谱分配研究_李雪扬

目的
用户位置快速变化,周围环境更为复杂的车联网环境
车辆的密度和设备的种类增加了无线频谱环境的动态性和复杂性;
1. 基于用户间社会关系:提高信息传输成功了与信息可靠度;
2. V2X动态频谱接入模型(G-hop协议):减少信道选择冲突,避免“广播风暴”;
3. RNN:解决输入状态具有较强时间相关性问题,有效地处理序列数据,对过去的状态产生记忆特性[30];
4. GOEA:解决由多个车辆的同时传输引起的信道竞争问题,减少了用户间的碰撞率及信道空闲率
(关键)方法(结论)
功率控制
用户间社会关系为标准选择若干个MSU(Minor)作为传感节点接受环境信息(构建MSU间的社会关系网络),研究(主\CSU)社会信誉度对CSU(Chief)学习功率调节的影响,由单个CSU拓展成多个,以社会信誉度(体现在SNR阈值)计算状态量,通过DQN算法进行频谱共享(CSU学习MSU接受到PU的功率)。
DRL: 状态量——MSU接受到的环境状态信息(PU的发送功率)、动作空间——CSU的发送功率。训练时,防止梯度下降陷入局部最优,采用小批量梯度下降;为打破状态之间的相关性引入经验池机制
频谱分配:首先通过G-hop选择转发信号的车辆,根据GOEA算法选择合适通道。
G-hop协议:通过深度优先搜索(Depth-First-Searchalgorith,DFS)算法对车辆进行分组,采用欧氏距离作为度量方式;
GOEA(全局优化的RNN+DQN)防止所有用户对“不发送”获得奖励产生依赖性,需对动作空间进行规定,改变传统RL中的奖励方式,最大化一个时间序列下的累计奖励,状态量——ACK信号、动作和信道状态构成,策略(动作)——切换信道的概率。
结论
G-hop中每组仅有一个节点进行信号转发不存在信道争抢问题;使用DRL完成车辆最优动态接入,最大化信道利用率,减少因争抢信道而产生数据丢失;G-hop协议和GOEA算法通过MEC和SDR实现,当用户数量多时,效果最优
收获
G-hop协议中的DFS算法类似聚类算法;使用数据吞吐量T(与带宽和k时刻SNR有关) 判断社会信誉度的影响;了解面向车联网的动态频谱接入模型;认识利用DRL解决复杂控制问题中,DDPG、A3C算法将离散动作空间延申至连续动作空间;
性能指标:平均成功率、数据吞吐量、探索步数、平均奖励值、(GOEA)数据损失率、碰撞率、信道空闲率;
强化学习中利用 贝尔曼方程、状态转移概率 得出最优状态值函数与动作值函数;
问题:全局优化体现在哪?奖励方式

总结

  本人采用表格形式来对一篇文献的标题、目的、关键方法、结论、启发或收获、以及有价值的参考文献来记录。因此为了方便,上述论文的笔记不再整理,也同样以表格形式(虽然对排版不太满意)。对于各论文的参考文献一条条记录起来过于麻烦,因此缺少相应的参考文献部分。
  总之,目前的科研方式如下所示,在入门阶段,对收集并整合的文献都采取精读方式:
第一步,阅读标题、摘要、图表,掌握工作方法或内容;
第二步(略读),阅读引言、结论,掌握关键信息(结合图表快速扫描文章其余的内容);
第三步(精读),对论文进行整体阅读,跳过任何感到陌生或复杂的数学公式、术语(不理解或者不重要)等;
第四步,根据自己的问题总结出对论文的理解程度:

  1. 论文的作者为什么做什么
  2. 用了什么新方法/技术/方法关键要素是什么;
  3. 哪些内容有用
  4. 收集参考文献,进一步调研。

参考

[1] 黄博. 认知无线网络中频谱感知技术的研究[D].广东工业大学,2021.DOI:10.27029/d.cnki.ggdgu.2021.002220.
[2] 叶梓峰. 基于深度强化学习的动态频谱分配方法研究[D].广东工业大学,2019.DOI:10.27029/d.cnki.ggdgu.2019.000244.
[3] 李雪扬. 基于深度强化学习的频谱分配研究[D].广东工业大学,2020.DOI:10.27029/d.cnki.ggdgu.2020.000015.
[4] 一本关于认知无线网络的书(懒得找)


保持专注,好奇心,以谦卑的心态不断学习,做到知行合一

你可能感兴趣的:(吊儿郎当搞科研,学习,笔记,学习方法,信号处理,信息与通信)