[文献提炼] 车联网中资源分配的问题建模 又三篇

前言

摘录和分析看过的论文中 SYSTEM MODEL / PROBLEM FORMULATION 的部分,关注论文的关键词为 UUDN V2X RL。

本文为第二期,第一期链接:https://blog.csdn.net/m0_37495408/article/details/107546431

Model-Free Ultra Reliable Low Latency Communication (URLLC): a Deep Reinforcement Learning Framework

这是一个2019年来自ICC的文章

链路的表示:考虑单一基站覆盖下的场景,其中存在N个用户和K个可用的RB。每个用户有其独立的速率、可靠性、延迟需求。本文不对包到达及包长度做任何假设。

下行传输速率为:

\LARGE r_{i}(t)=\sum_{j=1}^{K} \rho_{i j}(t) B \log _{2}\left(1+\frac{p_{i j}(t) h_{i j}(t)}{\sigma^{2}}\right)

其中B为带宽,h为时变的 V2I 瑞丽衰落信道增益,p 为下行传输功率,\LARGE \rho 为RB分配。

可靠性表示:可靠性 \LARGE \gamma_i(t) 定义其为时延超过预定义阈值 \LARGE D_i^{max} 的概率,时延分成传输时延和排队时延两部分。

传输速率约束于包尺寸、包到达率、可靠性:\LARGE r_{i}(t)>\phi\left(\lambda_{i}(t), \beta(t), \gamma_{i}, D_{i}^{\max }\right)>\lambda_{i}(t) \beta_{i}(t)

其中 \LARGE \beta 是包尺寸、\LARGE \lambda 是包的平均到达速率、\LARGE \phi 表征传输速率和速率、包到达率、可靠性的一个映射(函数)。

目标是在保证可靠性、延迟、速率的前提下最小化BS的平均下行功率:

[文献提炼] 车联网中资源分配的问题建模 又三篇_第1张图片

 约束于

  • 3b:用包延迟描述的可靠性约束(D_i是i号用户的包延迟)
  • 3c、3d:可行性条件

整个资源分配分两个步骤:1.根据可靠性决定每个用户的传输速率;2.分配功率和RB到每个用户。

根据排队论可得3b中的可靠性为:\LARGE \gamma_{i}(t)=1-\operatorname{Pr}\left\{D_{i}>D_{i}^{\max }\right\} \approx 1-\frac{\mu_{i}^{\prime}(t)}{\mu_{i}(t)}\LARGE \mu'是用户i 在slot内延迟超限的包的数量,\LARGE \mu是用户在slot内传输的包的总数量。当\mu增大,上式将近似收敛于 (3b) 中的可靠性。

 Learn to Compress CSI and Allocate Resources in Vehicular Networks

2020年来自 IEEE TRANSACTIONS ON COMMUNICATIONS 的文章

 链路表示:考虑一个有N个蜂窝用户、K对D2D链路、单一BS覆盖下的车联网,D2D交换安全信息,蜂窝用户使用V2I来支持大流量的应用。为保证蜂窝用户的QoS,假设V2I使用正交的频谱资源,并且其上行传输时仅占用一个信道。V2V与V2I分享频谱。

V2I的SINR的表示:\LARGE \gamma_{n}^{c}[n]=\frac{P_{n}^{c} g_{n}[n]}{\sum_{k=1}^{K} \rho_{k}[n] P_{k}^{d} h_{k, B}[n]+\sigma^{2}},其中g[n]为CU(蜂窝用户)在n号信道到基站的信道增益,h为来自k号V2V的干扰,P为发射功率,\LARGE \sigma^2 表示噪声功率,\LARGE \rho 表示信道分配。我们假设每个D2D对进展用一个信道。

V2I信道容量的表示\LARGE C_{n}^{c}[n]=B \log _{2}\left(1+\gamma_{n}^{c}[n]\right),B为信道带宽。

V2V链路的SINR和信道容量的计算类似:\LARGE \gamma_{k}^{d}[n]=\frac{\rho_{k}[n] P_{k}^{d} h_{k}[n]}{I_{k}[n]+\sigma^{2}}\LARGE I_{k}[n]=\sum_{l \neq k}^{K} \rho_{l}[n] P_{l}^{d} h_{l, k}[n]+P_{n}^{c} g_{n, k}[n]

\LARGE C_{k}^{d}[n]=B \log _{2}\left(1+\gamma_{k}^{d}[n]\right)

奖励设计:\LARGE R=\lambda_{c} \sum_{n=1}^{N} C_{n}^{c}[n]+\lambda_{d} \sum_{k=1}^{K} C_{k}^{d},两项分别表示V2I和V2V的信道容量

自变量:\LARGE a = \{\rho_1, ...,\rho_k, ...,\rho_K \} 表示对于 k号V2V链路 的信道分配向量。

Intelligent Resource Management Based on Reinforcement Learning for Ultra-Reliable and Low-Latency IoV Communication Networks

[文献提炼] 车联网中资源分配的问题建模 又三篇_第2张图片

链路的表示:场景中存在K个蜂窝用户,M个 D2D-V2V 对,使用OFDMA (正交频分多址)以服务多个UE,考虑上行链路,存在N (>K) 个正交的RB,假设每个蜂窝用户只能占用一个RB,并且该RB最多被D2D重用一次。

SINR的表示:\LARGE h_k ,h_m 分别表示蜂窝用户和D2D对的信道增益,\LARGE g_{k, m}, g_{k, m, B} 分别表示蜂窝用户与D2D对之间的干扰、D2D对对BS在k号RB上的干扰。假设上述的量都是由PL,大尺小尺构成的。

D2D对有三种模式可以选择:

  1. 重用模式:D2D对可以使用蜂窝用户占用的RB,此时k号蜂窝用户的SINR为:\LARGE \xi_{k, m}^{c(1)}=\frac{P_{k, m}^{\mathrm{c}(1)} h_{k}}{P_{k, m}^{\mathrm{d}(1)} g_{k, m, \mathrm{B}}+\sigma^{2}}
    分子的\LARGE \sigma^2为噪声功率,并且我们蜂窝用户的噪声功率都相等。
    D2D对的上行SINR为:\LARGE \xi_{k, m}^{\mathrm{d}(1)}=\frac{P_{k, m}^{\mathrm{d}(1)} h_{m}}{P_{k, m}^{\mathrm{c}(1)} g_{k, m}+\sigma^{2}}
  2. 专用模式:一个RB块仅分配给一个D2D对,此时D2D对的上行SINR为:\LARGE \xi_{m}^{\mathrm{d}(2)}=P_{m}^{\mathrm{d}(2)} h_{m} / \sigma^{2}
  3. 蜂窝模式(用蜂窝作中继):当D2D对相距过远时,可以使用BS做中继。此时每个UE视作一个普通的蜂窝用户,其各自占用一个RB,此RB规定不被别人使用。所以D2D对的SINR为:\LARGE \xi_{m}^{\mathrm{d}(3)}=P_{m}^{\mathrm{d}(3)} h_{m} / \sigma^{2}

 一般来讲,当蜂窝用户的RB没有被重用时,其上行SINR为\LARGE \xi_{k}^{\mathrm{c}(2)}=P_{k}^{\mathrm{c}(2)} h_{k} / \sigma^{2}

蜂窝用户的总数据率

                                                \LARGE \begin{aligned} R_{k}^{\mathrm{c}}=& x_{k, m}^{\mathrm{d}(1)} \log _{2}\left(1+\xi_{k, m}^{\mathrm{c}(1)}\right) \\ &+\left(1-\sum_{m \in \mathcal{M}} x_{k, m}^{\mathrm{d}(1)}\right) \log _{2}\left(1+\xi_{k}^{\mathrm{c}(2)}\right) \end{aligned}

D2D链路的总数据率

                                                 \LARGE \begin{aligned} R_{m}^{\mathrm{d}}=& \sum_{k \in \mathcal{K}}\left(x_{k, m}^{\mathrm{d}(1)} \log _{2}\left(1+\xi_{k, m}^{\mathrm{d}(1)}\right)\right) \\ &+x_{m}^{\mathrm{d}(2)} \log _{2}\left(1+\xi_{m}^{\mathrm{d}(2)}\right)+x_{m}^{\mathrm{d}(3)} \log _{2}\left(1+\xi_{m}^{\mathrm{d}(3)}\right) \end{aligned}

 约束构建:通信服务分作两个场景:1.单播场景(传递交通安全类信息,对URLLC要求严格但对数据率要求宽松);2.普通场景(要求大数据速率)。

普通场景下的最小数据速率约束\LARGE R_{k}^{\mathrm{c}} \geq R_{k}^{\mathrm{c}, \mathrm{tar}}, \forall k, \text { and }, R_{m}^{\mathrm{d}, \mathrm{nor}} \geq R_{m}^{\mathrm{d}, \mathrm{nor}, \mathrm{tar}}, \forall m,其中\LARGE d^{d, nor}_m表示通常场景下D2D对的数据率,加上tar角标的是最小数据率阈值。

传输延迟的表示:\LARGE T_{tx} = \tau_{mac}+\tau_{data}, 前者时物理层三次握手的时延、后者是数据传输时延。

对于单播场景下的D2D链路,其延迟约束为:\LARGE p_{m}^{\mathrm{dclay}}=\operatorname{Pr}\left\{T_{\mathrm{tx}} \geq T_{\max }\right\} \leq p_{\max }^{\mathrm{delay}}

可靠性约束为:\LARGE p_{m}^{\text {outage }}=\operatorname{Pr}\left\{R_{m}^{\mathrm{d}, \mathrm{uni}} \leq R_{m}^{\mathrm{d}, \mathrm{uni}, \operatorname{tar}}\right\} \leq p_{\max }^{\text {outage }}

问题构建:

                                        \LARGE \begin{array}{l} \max _{\mathbf{x}, \mathbf{P}}\left\{\sum_{k \in \mathcal{K}} R_{k}^{\mathrm{c}}+\sum_{m \in \mathcal{M}_{\mathrm{nor}}} R_{m}^{\mathrm{d}, \mathrm{nor}}\right\} \\ \text { s.t. }(8),(9),(10) ; x_{k, m}^{\mathrm{d}(1)}, x_{m}^{\mathrm{d}(2)}, x_{m}^{\mathrm{d}(3)} \in\{0,1\}, \forall m \end{array}

                                          \LARGE \begin{array}{l} \sum_{m \in \mathcal{M}} x_{k, m}^{\mathrm{d}(1)} \leq 1, \forall k \\ \sum_{k \in \mathcal{K}} x_{k, m}^{\mathrm{d}(1)}+x_{m}^{\mathrm{d}(2)}+x_{m}^{\mathrm{d}(3)} \leq 1, \forall k \\ \sum_{m \in \mathcal{M}} x_{m}^{\mathrm{d}(2)}+\sum_{m \in \mathcal{M}} x_{m}^{\mathrm{d}(3)} \leq N_{\mathrm{U}} \\ \sum_{k \in \mathcal{K}}\left(x_{k, m}^{\mathrm{d}(1)} P_{k, m}^{\mathrm{d}(1)}\right)+x_{m}^{\mathrm{d}(2)} P_{m}^{\mathrm{d}(2)} \\ \quad+x_{m}^{\mathrm{d}(3)} P_{m}^{\mathrm{d}(3)} \leq P_{\max }^{\mathrm{d}}, \forall m \\ x_{k, m}^{\mathrm{d}(1)} P_{k, m}^{\mathrm{c}(1)}+\left(1-\sum_{m \in \mathcal{M}} x_{k, m}^{\mathrm{d}(1)}\right) P_{k}^{\mathrm{c}(2)} \leq P_{\max }^{\mathrm{c}}, \forall k \end{array}

其中 \LARGE x = \{x^{(1)},x^{(2)},x^{(3)}\} 表征模式选择和RB分配,P表示发射功率矩阵,\LARGE M_{nor}表示通常场景下的D2D对。

奖励函数:

\LARGE $\begin{aligned} r=& c_{1}\left(\sum_{k \in \mathcal{K}} R_{k}^{\mathrm{c}}+\sum_{m \in \mathcal{M}_{\mathrm{nor}}} R_{m}^{\mathrm{d}, \mathrm{nor}}\right) \\ &-c_{2}\left(\sum_{m\in\mathcal{M}_{uni}}(p_m^{delay}+p_m^{outage})\right) \\ &-c_{3}\left(\sum_{k\in\mathcal{M}_{\mathrm{uni}}}\left(R_{k}^{c,tar}+R_{k}^{c}\right)+\sum_{m\in\mathcal{M}_{nor}}(R_m^{d, nor,tar}-R_m^{d,nor}))\right) \end{aligned}$

动作空间构建:\LARGE $a=\left\{\beta_{\mathrm{ms}}, \beta_{\mathrm{rb}}, \beta_{\mathrm{po}}\right\}$通信模式选择、RB分配决策、功率等级选择。(动作选择需要满足原优化问题的约束)

总结

论文 论文1 论文2 论文3
资源分配的对象

传输速率

用户的功率和RB分配

\LARGE a = \{\rho_1, ...,\rho_k, ...,\rho_K \} 表示对于 k号V2V链路 的信道分配向量 通信模式选择、RB分配决策、功率等级选择。(动作选择需要满足原优化问题的约束)
优化目标 \LARGE \min _{p_{i j}, \rho_{i j}} \lim _{t \rightarrow \infty} \frac{1}{t} \sum_{\tau=1}^{t} \sum_{i=1}^{N} \sum_{j=1}^{K} p_{i j}(\tau) \LARGE R=\lambda_{c} \sum_{n=1}^{N} C_{n}^{c}[n]+\lambda_{d} \sum_{k=1}^{K} C_{k}^{d} \LARGE $\begin{aligned} r=& c_{1}\left(\sum_{k \in \mathcal{K}} R_{k}^{\mathrm{c}}+\sum_{m \in \mathcal{M}_{\mathrm{nor}}} R_{m}^{\mathrm{d}, \mathrm{nor}}\right) \\ &-c_{2}\left(\sum_{m\in\mathcal{M}_{uni}}(p_m^{delay}+p_m^{outage})\right) \\ &-c_{3}\left(\sum_{k\in\mathcal{M}_{\mathrm{uni}}}\left(R_{k}^{c,tar}+R_{k}^{c}\right)+\sum_{m\in\mathcal{M}_{nor}}(R_m^{d, nor,tar}-R_m^{d,nor}))\right) \end{aligned}$
信道容量 \LARGE r_{i}(t)=\sum_{j=1}^{K} \rho_{i j}(t) B \log _{2}\left(1+\frac{p_{i j}(t) h_{i j}(t)}{\sigma^{2}}\right)

V2I\LARGE \gamma_{n}^{c}[n]=\frac{P_{n}^{c} g_{n}[n]}{\sum_{k=1}^{K} \rho_{k}[n] P_{k}^{d} h_{k, B}[n]+\sigma^{2}}\LARGE C_{n}^{c}[n]=B \log _{2}\left(1+\gamma_{n}^{c}[n]\right)

V2V

\LARGE \gamma_{k}^{d}[n]=\frac{\rho_{k}[n] P_{k}^{d} h_{k}[n]}{I_{k}[n]+\sigma^{2}}\LARGE I_{k}[n]=\sum_{l \neq k}^{K} \rho_{l}[n] P_{l}^{d} h_{l, k}[n]+P_{n}^{c} g_{n, k}[n]\LARGE C_{k}^{d}[n]=B \log _{2}\left(1+\gamma_{k}^{d}[n]\right)

蜂窝:\LARGE \begin{aligned} R_{k}^{\mathrm{c}}=& x_{k, m}^{\mathrm{d}(1)} \log _{2}\left(1+\xi_{k, m}^{\mathrm{c}(1)}\right) \\ &+\left(1-\sum_{m \in \mathcal{M}} x_{k, m}^{\mathrm{d}(1)}\right) \log _{2}\left(1+\xi_{k}^{\mathrm{c}(2)}\right) \end{aligned}

D2D:

\LARGE \begin{aligned} R_{m}^{\mathrm{d}}=& \sum_{k \in \mathcal{K}}\left(x_{k, m}^{\mathrm{d}(1)} \log _{2}\left(1+\xi_{k, m}^{\mathrm{d}(1)}\right)\right) \\ &+x_{m}^{\mathrm{d}(2)} \log _{2}\left(1+\xi_{m}^{\mathrm{d}(2)}\right)+x_{m}^{\mathrm{d}(3)} \log _{2}\left(1+\xi_{m}^{\mathrm{d}(3)}\right) \end{aligned}

约束

\LARGE \begin{array}{l} \operatorname{Pr}\left\{D_{i}>D_{i}^{\max }\right\}<1-\gamma_{i}^{*}, \quad \forall i \in \mathcal{N} \\ p_{i j}(t) \geq 0, \quad \rho_{i j}(t) \in\{0,1\} \\ \forall i \in \mathcal{N}, \quad \forall j \in \mathcal{K}, \quad \forall t (3c))\\ \sum_{i} \rho_{i j}(t)=1, \quad \forall j \in \mathcal{K}, \quad \forall t \end{array}

3b:用包延迟描述的可靠性约束(D_i是i号用户的包延迟)

3c、3d:可行性条件

 

通常场景:\LARGE R_{k}^{\mathrm{c}} \geq R_{k}^{\mathrm{c}, \mathrm{tar}}, \forall k, \text { and }, R_{m}^{\mathrm{d}, \mathrm{nor}} \geq R_{m}^{\mathrm{d}, \mathrm{nor}, \mathrm{tar}}, \forall m

 

 

你可能感兴趣的:(V2X,资源管理,自动驾驶)