照旧的你好

MEC相关论文笔记

论文名称：基于深度强化学习的车辆边缘计算调度
Deep Reinforcement Learning-Based Ofﬂoading Scheduling for Vehicular Edge Computing

前言

VEC绝对式车辆边缘计算‘（Abstract—Vehicular edge computing），是一种新型计算范例，可增强车辆终端能力，以支持低延迟和高能效的资源匮乏的车载应用。

本文研究了在典型的VEC场景中的泡沫调度问题的重要计算，在这种情况下，沿着高速公路行驶的VT打算调度其在队列中等待的任务，以最大程度地减少任务之间的权衡成本延迟和能源消耗。

由于任务特征多样，动态无线环境以及车辆移动引起的频繁移交事件，最佳解决方案应同时考虑在哪里安排以及何时安排每个任务。这种复杂的随机优化问题，我们通过精心设计的**马尔可夫决策过程（MDP）对其进行建模，并借助深度强化学习（DRL）**来处理巨大的状态空间。

本文的DRL实现是基于最新的近端策略优化（PPO）算法设计的。结合卷积神经网络（CNN）的参数共享网络体系结构用于近似策略和价值函数，可以有效地提取代表性特征。对状态和奖励表示进行了一系列调整，以进一步提高培训效率。广泛的仿真实验和与六种已知基线算法的全面比较及其启发式组合清楚地证明了所提出的基于DRL的泡沫调度方法的优势。

一、引言

车载应用的特点：计算量大，带宽消耗和/或等待时间敏感。

通过将这些资源需求任务分散到路边单元（RSU）中附加的MEC服务器，可以显着减少车载应用程序的执行延迟和能耗。同时，可以节省核心网络的带宽，从而降低了网络拥塞的风险。

车辆边缘计算（VEC）是移动边缘计算（MEC）在车辆场景中的应用。发泡任务是MEC / VEC技术的关键功能。由于数据传输和远程任务执行所引起的额外能量和时间消耗，将计算任务充斥到边缘服务器可能并不总是带来好处。一项关键的技术挑战是在制定泡沫决策时平衡计算和通信的总体成本。

马尔可夫决策过程（MDP）是一种有效的数学工具，可在动态环境中对用户行为的影响进行建模，并允许寻求最佳的起泡沫决策以实现特定的长期目标。应该构造一个描述系统动力学的状态转移概率矩阵（即，导致状态转移的用户动作的概率），然后可以通过值迭代或策略迭代来得出最优的起泡策略。

深度强化学习（DRL）被设想为解决复杂的顺序决策问题的有前途的解决方案。DRL特别适用于解决动态环境中发泡的MEC / VEC问题。首先，DRL可以针对长期起泡性能进行优化。这将胜过在静态环境中提出的方法的“一次性”和贪婪的应用，这可能会导致严格的次优结果。其次，通过DRL，无需与系统动力学相关的任何先验知识（例如，无线信道或任务到达特性），就可以通过直接与环境交互来学习最佳的泛洪策略。这样就避免了使用传统解决方案求解MDP时需要的状态转移矩阵。第三，DRL可以充分利用深度神经网络（DNN）强大的表示能力。即使在状态和动作空间很大的复杂问题中，最佳的起泡策略也可以适当地近似。

该论文研究了在典型的VEC场景中泡沫调度问题的计算。沿着高速公路行驶的VT（车辆终端）决定如何调度在其任务队列中等待的任务，如图1所示。任务是由不同的任务独立生成的应用程序，以使其具有不同的特征（关于数据大小和CVR）。
RSU中配备的MEC服务器可用于进行VT的计算。无线车辆通信环境是复杂的。衰落统计可能是未知的，并且瞬时信道知识仅是因果可用的。由于VT的移动性，定期从一个服务RSU切换到另一个RSU。这些问题导致动态更改数据传输时间/能耗，甚至发生传输故障。因此，良好的调度策略不仅应决定在哪里调度每个任务（即，在VT中本地执行任务，还是在MEC服务器上远程执行），还应决定何时调度（即，每个任务的调度顺序和时间））。由于复杂的环境动力学和广阔的状态空间，传统解决方案非常涉及此问题。为了应对这些挑战，我们设计了一种新颖的基于DRL的发泡调度方法，该方法可以最大程度地减少长期成本，而长期成本是在任务执行延迟和能耗之间进行权衡取舍的。主要贡献概述如下：

我们通过精心设计的MDP对洪水调度过程进行建模，其中考虑了任务特征，无线传输和队列动态以及VT移动性的影响。考虑到MDP本质上是无模型的，并且具有巨大的状态和动作空间，我们建议应用DRL来找到最佳策略。
应用了一系列方法来提高训练效率和收敛性能。首先，我们设计基于近端策略优化（PPO）算法的训练方法，该方法是具有出色稳定性和可靠性的最新策略梯度方法[18]。另外，为了更好地提取任务队列的代表性特征，在DNN体系结构中嵌入了卷积神经网络（CNN），用于近似泛洪调度策略和价值函数。最后，通过有意地调整状态和奖励表示，可以避免在训练过程中进行大量的无效率的探索尝试，以进一步提高训练效率。
进行了广泛的仿真实验，以将所提出的基于DRL的泡沫调度方法与六种已知的基线算法及其启发式组合进行比较。结果表明，我们的方法始终可以实现最低的长期成本。明确展示了应用DRL解决VEC中复杂决策问题的潜力

第二部分介绍了系统模型。在第三部分中，我们简要介绍了DRL的背景。第四节将泛洪调度问题的计算公式化为MDP。第五节详细介绍了DRL的实现和训练方法。第六节提供了仿真结果和讨论。最后，第七节总结了本文

二、系统模型

均值为零且方差为σ2的复数高斯分布。

指标函数，如果满足条件Φ，则等于1，否则等于0。

A、系统架构

VEC [2]的典型应用场景，如图1所示。VT沿着高速公路行驶，由沿路边部署的RSU服务。相邻RSU之间的距离为L米，并且不同RSU的覆盖区域不重叠。因此，根据RSU的覆盖范围将道路划分为多个部分。一辆VT只能由一个RSU通过车辆到基础设施（V2I）通信来服务。当它驶过两个路段的边界时，就会发生切换。每个RSU配备有MEC服务器，其充当VT的邻近云，即，可以为每个VT保留一定量的计算资源以进行任务计算。位于网络后端的备份服务器通过有线连接连接到所有MEC服务器，并且可以在每个MEC服务器的计算资源不足时增强其功能。 MEC服务器可以通过核心网络相互通信。然而，为了避免降低核心网络的条件，通常不允许RSU之间传输原始的车载应用程序数据（例如，用于任务填充的输入数据），该数据通常较大。

从VT的角度来看，这项工作的重点是确定一种起步调度策略，该策略可以以最小的成本有效地完成车载应用程序计算任务的执行。在下文中，我们的分析集中于一个单一的代表性VT。（在本文中，假定为每个VT保留了一定量的MEC计算资源和V2I传输带宽。在多个VT之间动态优化有限的计算和通信资源的分配是一个更具挑战性的问题，这是我们未来的研究主题之一。）VT与它的服务MEC服务器之间关于泡沫计算的交互如图1的底部所示。我们考虑VT中的抽象计算体系结构，它由一个任务队列组成，任务调度器，本地处理单元（LPU）和数据传输单元（DTU）（我们的工作重点是确定适当的洪流调度策略，以在复杂的车辆通信和计算环境中平衡本地和远程执行。采用具有单个中央单元的计算架构）。可能由多种类型的应用程序生成的独立计算任务随机到达任务队列（按其生成时间排序）。任务计划程序综合所有可用的系统信息（包括队列状态，本地执行状态，传输状态和远程执行状态），并根据持续的调度策略来计划任务。根据计划的执行时间，分配给本地执行的任务在LPU上处理。对于远程执行，首先通过DTU将任务传输到服务的RSU。之后，RSU上的MEC服务器使用保留的计算资源执行任务，然后将计算结果发送回VT。

B 任务队列模型

我们将系统的工作负载建模为泊松过程，其速率为λ，表示每个时隙中到达VT的任务队列的预期计算任务数。第i个（i∈N +）到达任务Ji被描述为一个三元组

在（1）中，tg i是生成Ji的时间，di（以位为单位）是任务输入数据的大小，而ki（以CPU周期/位为单位）是其CVR（计算体积比），可以通过应用程序配置文件来获得。队列中等待的所有任务都被认为是由计算密集型的车载应用程序生成的（例如，对象识别或病毒扫描）。通常，与输入（例如图片或文件）相比，此类任务（例如对象标签或病毒报告）的计算结果具有足够小的数据大小[3]。因此，在本文中，所有任务的输出数据的大小和传输时间都可以忽略不计。

我们考虑的任务没有严格的延迟要求或执行优先级。它们按照其生成时间在队列中排序。换句话说，当新任务到达时，它将被附加到任务队列的后端。如果调度程序将队列中的任何任务发送到LPU或DTU，则将其移至后面的任务以填补空位置。我们使用Q表示队列可以容纳的最大任务数，并使用q [t]（q [t]≤Q）表示在时间段t队列中的实际任务数。如果q [t] = Q，则必须丢弃新的传入任务，并发生溢出事件。现在，可以用Q×3矩阵Q [t]表示在任意时隙t的任务队列的状态，其中第j（j∈{1,2，···，q [t]}）行是由第j个等待任务的三个定义元素（用Q [t]⟨j⟩表示）组成，分别是任务生成时间，输入数据大小和CVR。 Q [t]中其余的Q-q [t]行中的每一行都是1×3全零向量，表示在该队列位置没有等待任务。

请注意，我们可以使用两种表示法来引用任务。第一个反映自然任务生成过程。例如，（1）中的Ji表示由车载应用程序生成的第i个任务，并且索引i可以是任何正整数。第二种表示法反映任务队列的实时状态。例如，Q [t]⟨j⟩是在特定时隙t在队列中等待的第j个（排序的）任务，并且整数索引j由Q上限。前一种表示法唯一地区分了不同的任务。但是后者可以更好地帮助描述所考虑系统的动态性质。为了便于演示，我们使用了与（1）类似的方法来描述任务Q [t]⟨j⟩：

C沟通模式

无线V2I通信（用于填充任务）是在块衰落环境中进行的。衰落系数在每个信道相干时间间隔内保持不变，该时间间隔可以是一个或多个时隙，但此后随机变化（不一定独立）。我们假设VT和它的服务RSU之间的信道衰落系数由它们之间的信号传播环境统计确定。例如，在瑞利衰落下，可以用h =〜hˆ h来建模复衰落系数h，其中h h〜CN（0,1）代表小规模衰落，而大衰落系数〜h反映了两种路径损耗的影响和阴影现象。通常，〜h是E，一组环境因素（例如VT x的位置，到服务RSU d的距离）以及可能其他因素的函数。由于E相对容易估算，因此知道E从而〜h在统计上将h描述为从CN（0，|〜

考虑到所使用的信道代码的能力，从VT到其服务RSU的可靠传输数据速率r是信道衰落系数的确定函数。这意味着，传输速率还由环境因素统计确定，即，它遵循条件概率密度函数（PDF）f（r | E）。出于演示目的，在本文中，我们限制集合E = {x，d}：通过VT的位置以及VT与服务RSU之间的距离来完全描述环境。对于固定的x和d，PDFf（r | E）是固定的函数，但VT或RSU都不知道。

在任何时隙t，VT都可以获得有关瞬时衰落系数h [t]的一定水平的知识，据此可以推断出数据速率r [t]（以位/时隙为单位）。**如果VT打算在时隙t向RSU发送数据，那么r [t]比特数据可以被成功地传送。**因此，我们将ttx（v，t）表示为从时隙t开始将大小为v（以位为单位）的数据传输到服务RSU所花费的时间。满足

实际上，渠道知识只能是因果可用的。 VT的移动还有助于动态信道环境，在该环境中，信道增益会快速变化。很难预测将来时隙的确切可达到的传输速率。因此，只有在数据传输实际完成时才能知道ttx（v，t）的值。因此，良好的调度计划策略应按顺序进行调度决策，而不是执行“一次性”解决方案。

VT的移动和动态无线信道环境引起的另一个问题是由于切换导致的传输失败。如前所述，为避免降低核心网络的条件，不允许在RSU之间传输原始的车载应用程序数据。当VT离开RSU的覆盖区域时，如果尚未完成任务的输入数据传输，则先前传输的数据无法传递到新的服务RSU，必须丢弃。该任务必须由VT重新传输，以浪费能源和较大延迟为代价。相反，由于计算输出数据的大小可忽略不计，如果在切换之前任务输入数据传输已完成，则可将计算结果从先前的服务RSU传递到新的RSU。

D计算模型

期望队列中的任务及时有效地执行，即等待时间和能量消耗小。较大的延迟会降低车载应用程序的实用性和用户体验。高能耗会很快耗尽VT的电池。它们都可以视为任务执行的成本。在LPU本地或在MEC服务器上进行远程计算每个任务所需的时间和精力如下所示。

1）本地执行模型：假定调度程序确定将任务Ji调度到时隙ta i的本地执行。然后，从i开始，Ji的所有CPU周期（即diki）将在LPU上执行。完成接口板上的Ji所需的时隙数为。其中，fl（周期/时隙）是接口板的CPU频率

根据[20]和[21]，可以通过CPU频率的超线性函数将平均功耗pl（以焦耳/槽为单位）建模为pl =ξ（fl）ν，其中ξ和ν都是常数。因此，可以通过以下方式获得本地执行Ji所消耗的能量：

2）远程执行模型：如果计划在任务ta i上执行任务Ji的任务，则DTU在任务ta i上开始将任务传递到服务RSU。成功接收所有输入数据后，MEC服务器将为VT远程执行任务。总时间消耗包括两部分：无线数据传输时间和MEC服务器上任务计算时间。前者与计划的开始时间ta i有关，因为每个时隙的传输数据速率取决于VT的位置，如第II-C节所述。可以根据（3）得出通过V2I通信完成对di比特数据的传送的时隙数为

另外，可以通过以下方式计算在MEC服务器上执行Ji所需的时隙数：

其中fs是服务提供商为VT保留的CPU频率。因此，可以通过以下方法获得用于消耗Ji的总时隙：

从VT的角度来看，远程执行任务不会消耗精力。注入Ji的能量消耗仅用于数据传输，由下式给出：
其中ptx（以焦耳/槽为单位）是VT的传输功率

E、目的

当VT沿着高速公路行驶时，调度程序会连续确定“在哪里”和“何时”执行在其队列中等待的任务。对于每个任务Ji，前者指的是应在LPU上本地计算（由二进制指示符ai = 0表示）还是将其扩展到MEC服务器以进行远程执行（由ai = 1表示）。后者是指本地计算或发泡操作的开始时间（用整数ta i表示）。
我们将任务Ji经历的等待时间定义为生成Ji的时刻（即（1）中的tg i）与完成Ji的时刻之间的总持续时间（时隙）。因此，可以根据调度决策获得等待时间。

三、深度学习背景

DRL是增强学习（RL）的增强，其中DNN用于状态表示或函数逼近[11]，[12]。在RL问题中，代理会随着时间与环境交互。在每个时间步长n，代理都会在状态空间S中观察环境状态sn，并遵循策略π（an | sn）从动作空间A中选择一个动作an，这是观察状态时采取actionan的概率锡然后，环境根据环境动力学P（sn + 1 | sn，an）和奖励函数R（sn，an，sn）转换到下一个状态sn + 1∈S并向主体发出奖励信号rn。 +1）。除非代理观察到终端状态（在情节性问题中），否则此过程将无限期地继续。代理从状态sm累积的奖励定义为

其中γ∈（0,1]称为折现因子，通常用MDP表示，定义为5元组，即M =（S，A，P，R，γ）。

值函数vπ（s）=Eπ[Gm | sm = s]是从状态s开始遵循策略π的累积奖励的期望。动作值函数qπ（s，a）=Eπ[Gm | sm = s，am = a]是在状态s下选择策略a然后遵循策略π的累积奖励的期望。它们分别表示状态和状态-动作对的优劣，并通过vπ（s）= $a∈Aπ（a | s）qπ（s，a）连接。 RL的目的是找到最佳策略π∗，以最大化对状态空间中任何状态的累积奖励的期望，即

DRL使用DNN近似策略和/或价值函数。借助DNN强大的表示能力，可以支持较大的状态空间。当前的DRL方法可以分为两类：基于价值的方法和基于策略的方法。

基于值的DRL方法采用DNN近似值函数（称为值网络），例如，深度Q网络（DQN）[23]和双DQN [24]。通常，基于价值的DRL方法的核心思想是最小化价值网络和实际价值函数之间的差异。自然目标函数可以写成

其中v（·;θ）是值网络，θ是其参数集。 vπ∗（·）表示实值函数，该函数未知，但通过不同的基于值的RL方法估计。期望值En [·]表示在采样和优化之间交替的算法中，有限数量的样本的经验平均值。

基于策略的DRL方法使用DNN近似参数化策略（称为策略网络），例如REINFORCE [25]和Actor-Critic [26]。与基于值的DRL方法相比，这些方法具有更好的收敛性，并且可以学习随机策略。基于策略的DRL方法通过计算策略梯度的估算器来工作，最常用的梯度估算器具有以下形式：

其中π是随机策略，ˆ An是时间步长n的估计函数。
传统的基于策略的DRL方法，例如REINFORCE，有两个主要缺陷：1）蒙特卡洛采样（获取Gn）带来高方差，导致学习缓慢； 2）策略更新（使用相同策略的训练和抽样）可以轻松收敛到局部最优。

最近，提出了广义利益估计（GAE）以在方差和偏差之间做出折衷[27]。 GAE估算器写为

其中φ用于调整偏差方差的权衡，以及

为了缓解局部最优问题，引入了非政策学习以提高政策梯度方法的探索能力。 OpenAI提出的PPO算法是最新技术[18]。它的目标功能是

裁剪函数clip（rn（θ），1-ϵ，1 + ϵ）限制了rn的值，从而消除了将rn移到区间[1-ϵ，1 + ϵ]之外的动机，其中ϵ是一个超参数。控制片段范围。通过取削波和未削波的物镜的最小值，最终目标被限制为削波和未削波的物镜的下限。由于这些优点，本文设计了基于PRL的基于DRL的泛洪调度方法。

总结

VEC -绝对式车辆边缘计算
VC -车辆终端
MDP-马尔可夫决策过程
DRL-深度强化学习
PPO-近端策略优化
CNN-卷积神经网络
DNN-深度神经网络
CVR-计算体积比computation-to-volume ratio
本地处理单元LPU
数据传输单元DTU
路边单元RSU–其中有MEC服务器
PRL？

VEC：增强VT能力，支持低延迟和高能效的车载应用。
本文：VT打算调度在队列中等待的任务，最大程度减少任务之前的权衡成本延迟和能源消耗。
方案应该考虑的内容：在哪安排（本地orMEC）何时安排（任务的时间和顺序）执行、每个任务。
使用马尔可夫决策过程MDP进行建模，借助深度学习DRL处理巨大的状态空间。
DRL实现基于近端策略优化PPD算法设计，结合卷积神经网络CNN的参数共享网络体系结构用于近似策略和价值函数，可有效的提取代表性特征。

任务卸载task ofﬂoading是MEC/VEC技术关键。在制定卸载ofﬂoading决策时平衡计算和通信的总体成本。由于数据传输和远程任务执行所引起的额外能量和时间消耗，将计算任务充斥到边缘服务器可能并不总是带来好处

MDP可以在动态环境对用户行为的影响进行建模，并允许寻求最佳的卸载决策以实现目标。为此赢构造一个描述系统动力学的状态转移概率矩阵（即导致状态转移的用户动作的概率）。然后通过概值迭代或策略迭代得出最佳卸载决策。但难以对系统动力学建模，难以获得转换概率矩阵，尤其是在状态空间和空间动作大时。

DRL实用于该问题，DRL可以对长期卸载性能进行优化，无需学习系统动力学先验知识，可通过直接于环境交互学习最佳的泛洪策略。充分利用DNN强大的表示能力，表达状态和动作空间，适当近似。

典型的VEC场景中任务卸载问题的计算，VT决定如何调度在其任务队列中等待的任务。任务是由不同的任务独立生成的应用程序，以使其具有不同的特征（关于数据大小和CVR）。无线车辆通信环境是复杂的。衰落统计可能是未知的，并且瞬时信道知识仅是因果可用的。由于VT的移动性，RSU的切换可能导致动态更改数据传输时间/能耗，甚至发生传输故障

基于DRL的任务卸载算法，减少长期成本（即任务执行延迟和能耗之前权衡取舍）：
精心设计的MDP对洪水调度过程进行建模，其中考虑了任务特征，无线传输和队列动态以及VT移动性的影响。提高训练效率和收敛性能：基于近端策略优化（PPO）算法的训练方法–稳定性和可靠性。DNN体系结构中嵌入了卷积神经网络（CNN）：为了更好的提取任务队列的代表性特征，用于近似泛洪调度策略和价值函数。调整状态和奖励表示，避免进行无效率的探索尝试

系统模型
系统架构：
相邻RSU之间的距离为L米，不同RSU的覆盖区域不重叠。根据RSU的覆盖范围将道路划分为多个部分。一辆VT只能由一个RSU通过车辆到基础设施（V2I）通信来服务。边界时，就会发生切换。假设：“每个RSU为每个VT保留一定量的计算资源以进行任务计算”网络后端的备份服务器通过有线连接连接到所有MEC服务器。MEC服务器可以通过核心网络相互通信。不允许RSU之间传输原始的车载应用程序数据。

从VT角度看：需要确定起步调度策略，该策略可以以最小的成本有效地完成车载应用程序计算任务的执行。后续分析集中于一个单一的代表性VT。VT中的抽象计算体系结构，它由一个任务队列组成，任务调度器，本地处理单元（LPU）和数据传输单元（DTU）。多种类型的应用程序生成的独立计算任务随机到达任务队列（按其生成时间排序）。任务计划程序综合所有可用的系统信息（包括队列状态，本地执行状态，传输状态和远程执行状态），并根据持续的调度策略来计划任务。根据计划的执行时间，分配给本地执行的任务在LPU上处理。对于远程执行，首先通过DTU将任务传输到服务的RSU。RSU上的MEC服务器使用保留的计算资源执行任务，然后将计算结果发送回VT。

任务队列
	任务负载建模为泊松过程。速率为λ，表示每个时隙中到达VT的任务队列的预期计算任务数
	第i个任务Ji被描述为一个三元组：t是生成Ji的时间，di是任务输入数据的大小，ki是其CVR
	队列中等待的所有任务都被认为是由计算密集型的车载应用程序生成的，此类任务的计算结果具有足够小的数据大小
	本文，所有任务的输出数据的大小和传输时间都可以忽略不计。
	考虑的任务没有严格的延迟要求或执行优先级，按时间在队列中排序
	Q表示队列可以容纳的最大任务数，并使用q [t]（q [t]≤Q）表示在时间段t队列中的实际任务数
	Q×3矩阵Q [t]表示在任意时隙t的任务队列的状态
         两种表示法来引用任务：1.反映自然任务生成过程  2.反映任务队列的实时状态

通信
	在块衰落环境中进行的。衰落系数在每个信道相干时间间隔内保持不变,但此后随机变化
	假设VT和它的服务RSU之间的信道衰落系数由它们之间的信号传播环境统计确定
	切换时，若VT已经把任务输入数据传输完成，则可将计算结果由RSU传递

计算操作
	本地计算：计算时间和计算消耗的能量
	远程执行：无线传输时间和MEC计算时间，能量消耗仅用于数据传输
目的
	调度程序连续确定“在哪”“何时”执行等待的任务。
	为任务Ji做出调度决策的成本被定义为任务延迟和能耗之间的权衡

深度学习背景：

    DRL是增强学习（RL）的增强，其中DNN用于状态表示或函数逼近。
    在RL问题中，代理会随着时间与环境交互。 在每个时间步长n，代理都会在状态空间S中观察环境状态sn，
    并遵循策略π从动作空间A中选择一个动作an，这是观察状态时采取actionan的概率 锡 然后，
    环境根据环境动力学P和奖励函数R转换到下一个状态sn + 1∈S并向主体发出奖励信号。
    除非代理观察到终端状态，否则此过程将无限期地继续。
    RL的目的是找到最佳策略π∗，以最大化对状态空间中任何状态的累积奖励的期望
    DRL使用DNN近似策略和/或价值函数。 借助DNN强大的表示能力，可以支持较大的状态空间。

    本文设计了基于PRL的基于DRL的泛洪调度方法。

MDP公式

应用DRL解决调度问题，首先指定一个MDP，可以充分描述卸载调度过程，然后使用DRL为MDP找最佳策略

状态空间
每个时隙开始，调度程序监视系统状态，并根据状态做出调度决策。
每个状态用3Q矩阵+5个参数表示CT的任务队列，LPU，DTU，MEC服务器，最终的无线环境
LPU状态：LPU完成当前正在其运行的任务所需的剩余CPU周期数。完成时为0
DTU状态：DTU需要传给MEC服务器任务的剩余数据量。（可中断）
MEC服务器状态：表示MEC服务器需要为当前已完成的任务执行的剩余CPU周期数
当DTU状态参数和MEC状态参数为0时，才说DTU处于空闲，以便可以激活传输过程，否则任务无法调度

行动空间
本地执行LE（在哪安排），远程执行RE（在哪安排），保持HO（何时安排）
LE：将VT队列中的任务调度到LPU，任务被发送到LPU，LPU更改状态和任务队列的状态，随时隙更新
RE：DTU空闲且队列不空，可采取RE来填充指定任务以进行远程执行，DTU和MEC服务器状态变化，无需其他措施
HO：负责推迟任务调度，HOw意味着即使LPU和/或DTU能够接受计算或传输，调度程序仍决定将所有等待的任务在队列中等w个时隙。
如果无线条件较差并且频发导致不必要的大延迟和/或能量消耗，则适当推迟任务调度过程以等待更好的传输机会将是值得的。

行动空间和行动合法性
完整空间为三个结合的并集
每个时隙开始，调度程序监控系统状态并决定是否采取调度措施。
每个行为的合法性都与其他状态相关。
尽管系统在每个时隙中都有不同的状态，但调度程序的操作只会在执行该操作的那些时隙
其他时隙上系统状态的更改（称为中间状态）是由环境因素引起的，例如新到达的任务等
我们的MDP中的实际状态空间S仅包括可以采取措施时的状态。

奖赏
调度器在时隙tan上对状态sn采取行动，在tbn个时隙后，进入新状态sn + 1，基于此状态要采取新动作
基于状态转换的时间间隔内VT中所有任务的时间和能量消耗来定义奖励函数R
在每个时隙t，如果未完成到达的任务，则其等待时间将增加一个时隙。在时间段t表示VT中所有任务的总时间延迟
要算出VT中所有任务从动作sn到sn + 1的总时间延迟
能耗仅与任务本地计算和输入数据传输相关。计算在时间段tV中所有任务的总能耗
计算：采取行动后，VT中所有任务从状态sn到sn + 1的总能耗
在MDP中由任务队列溢出引起的成本∆o
在加权调度策略设计中适当选择加权参数α和β，以反映用户偏向较小的延迟或较低的能耗，而ζ是任务流量的惩罚参数。
MDP的奖励函数R（sn，an，sn + 1）被定义为成本函数的负数，表明这种过渡的程度如何。
选择常数参数ks来缩放奖励的值范围。
调度器可以遵循特定的随机调度策略π与环境进行交互。然后获得马尔可夫链。

基于DRL的卸载调度
基于DRL的漫游调度方法。首先用于逼近调度计划策略的DNN体系结构，然后设计基于PPO的训练方法来训练策略网络。

网络架构
DNN架构在训练过程中需要两个功能：作为学习目标的液体调度策略π，值函数v（ sn;ω）用于优势估算
状态s∈S作为输入，但是具有不同的输出
利用参数共享的DNN架构同时估算策略和价值函数，策略网络和价值网络共享大多数网络结构。
区别在于共享的完全连接（FC）层之后的输出层，
对于策略网络，softmax层输出所有操作的概率分布。对于价值网络，FC层输出状态值。
MDP的状态空间S非常大，使用单个FC网络结构进行特征提取会导致训练过程效率低下。
将CNN嵌入DNN架构中，以有效提取任务队列的代表性特征。
队列状态首先与输入状态分离，然后发送到CNN层。
CNN层的输出，在输入到FC层以促进功能逼近之前，与剩余状态信息并置。
四个卷积层用于提取队列中的特征。由于奖励中考虑了任务在队列中等待所花费的时间，每个时间步长的信号对我们的优化没有帮助。

训练算法
总体目标是将策略网络和价值网络的错误项组合在一起。利用GAE作为估算函数。
基于PPO的训练算法：用相同的参数（θold←θ）初始化两个DNN，一个用于采样（πθold），另一个用于优化（πθ）。
该算法在采样和优化之间交替，在采用阶段按照旧策略采样N条轨迹。
为了提高训练效率，此阶段预算每个轨迹中每个步长的广义优势估计。缓存采样数据进行优化。
优化阶段针对k个时期更新策略πθ的参数θ
在每个时期，我们都基于目标函数通过对缓存的采样数据进行随机梯度提升来改善策略πθ。
在优化阶段之后，我们用当前的πθ更新采样策略πθold并删除缓存的数据。然后，下一次迭代开始
探索阶段的随机策略不能确保根据当前状态选择的动作的合法性。
采样时选择的处理：如果选择了非法动作类型，系统将忽略该非法动作，使系统状态保持不变。
由于基于策略的DRL支持随机策略，因此总是有机会选择其他操作类型。
继续调度，在奖励中添加惩罚项ki。
当不存在由LEj或REj动作指定的任务时，我们让调度程序自动选择队列中的第一个任务

训练效率
训练过程很难收敛。为了解决这个问题，我们采取了一系列方法来提高培训效率。
我们限制选择HO动作。定义了两个常数参数，限制HO操作的最大等待时间。
每次调度程序执行HO动作时，调度最多可以延迟npg个时隙。如有必要，可以采取更多的HO动作来进一步推迟决策程序。
限制HO动作的最大等待时间不会改变原始MDP，但会显着减小动作空间。
每个时隙的长度可以非常小，这在连续的HO动作之间几乎没有区别。
为了避免训练过程探索保持任务太长时间的HO动作，系统会记录连续的等待时间。
当等待时间超过某个阈值时，将应用惩罚项kh。此阈值仅设置为L / V。
不鼓励VT在不执行任何任务的情况下通过RSU的整个覆盖范围。
通过设置常量参数psmax≤Q来进一步减小操作空间的大小，并将可能的LE和RE操作的数量限制为最大psmax
大量的非法行为也导致学习缓慢。在调度时，队列前面的任务应具有更高的优先级。
通过选择较小的psmax值，可以保证任务调度的公平性，尽管一定程度地牺牲了可实现的性能。
为了避免发生大量任务等待在队列，根据当前队列长度在奖励中添加惩罚项。kq和u反映了我们对队列长度的期望。
选择较大的kq和u值会导致等待任务的数量减少，训练过程也会更有效。

性能评估
进行了广泛的仿真实验，以评估基于DRL的泡沫调度方法（DRLOSM）。算法和网络架构是使用TensorFlow
每个任务的数据大小di和CVR ki都从表III所示各个区域内的均匀分布中采样。
代理（即调度程序）不知道所有实验环境设置，但是只要固定了环境，我们的DRLOSM就能够通过与环境直接交互来学习最佳的调度计划

融合表现
	在实验环境中对其进行训练来验证所提出的DRLOSM的收敛性能
	采用了两种不同的DNN体系结构作为泡沫调度策略：
	提议的CNN嵌入式DNN体系结构（CNNembedded DNN）和3层FC DNN体系结构（3层FC）。
	在3层FC中，每个FC层具有512个具有泄漏ReLU激活功能的神经元，并采用层归一化。
	两种DNN架构的学习曲线（平均累积奖励与训练时期数）拟议的嵌入CNN的DNN的性能比3层FC好得多。
	它可以获得更高的平均累积奖励，并且收敛速度更快。CNN嵌入的DNN的大小也小于3层FC的大小。
	在训练过程中提出的DRLOSM的大量时间和计算开销。
	我们的训练过程可以在远程云中完成。 VT仅需要执行推理过程即可做出泡沫决策。DRLOSM的推理过程非常高效

静态队列方案中的性能
通过与许多基准算法进行比较来评估DRLOSM的性能。该场景系统初始化后无法生成新任务。
-所有本地执行（AL）：所有任务都在本地执行。
-全部开放（AO）：所有任务都计划在MEC服务器上进行，而不管无线状况如何。
-随机泛滥（RD）：以相同的概率随机选择动作空间中的所有动作。
-时间贪婪（TG）：当LPU空闲时，将立即安排CVR最低的任务在本地执行。
当DTU闲置时，会立即安排CVR最高的任务进行泛洪。
在此算法中避免了HO动作，因为它们总是会增加任务等待时间。
-能源贪婪（EG）：假设EG知道每个路段的预期V2I数据速率，仅在具有最佳无线条件的路段上执行任务，从而带来最低的能耗。
如果可以进一步降低能耗，则EG还可以安排任务以本地执行
基于以上五种基线算法采用预先定义的动作规则来指定浮动调度决策。
这些预定义的动作规则相对幼稚直观，使得决策过程更高效但灵活性较低。
除上述五个直观方法，GA遗传算法被用作另一种基线算法。
GA作为一种元启发式算法，是组合优化问题的一种使用解决方案。
GA：采用DEAP中的GA框架来实现此基线，调度计划被编码到每个人的染色体中，这是调度程序用来调度队列中任务的动作序列。
染色体中的每个基因都是整数，表示调度动作之一。
每个染色体的长度取决于EG的作用序列的长度，该序列的长度足以找到最佳解。
假设GA知道每个路段的无线状况。因此，它可以通过在模拟环境中应用动作序列来评估每个人
当GA终止时，将选择最有适应能力的人员作为最终的计划计划。
GA是一种典型的“一次性”计划算法，它试图根据当前系统状态计算最佳的调度计划。
一旦根据调度计划制定的系统状态发生更改（例如，生成新任务），就应重新执行该状态。
如果新任务不断动态到达，则GA应该保持在线方式重新执行。GA运行成本很昂贵，它仅适于SQS
通过更改加权因子α和固定β= 1进行仿真。任务队列Q的初始状态和VT的初始位置x [0]都是随机选择的，但是对于所有算法而言，它们都是相同的。
在SQS中不存在任务超载的风险，因此在训练中将惩罚参数ζ和kq设置为0。
比较AL，EG，AO等由于切换导致传输失败而导致平均重传任务的数量，体现该算法的优势
分开总成本并单独考虑任务等待时间和能耗。

C动态队列中的性能

D组合策略
考虑应用一种组合决策策略（CDS），该决策策略可以在五种直观算法（即TG，EG，AL，AO和RD）之间动态切换，以实现比它们各自更高的性能
确定何时以及在不同环境中应采用哪种直观策略取决于专家知识。并且需要花费大量精力来微调决策规则。
在如此复杂和动态的环境中，提出的DRLOSM可以通过与环境直接交互并学习最佳的调度算法来解决这些问题。无模型的基于DRL的算法的优势显而易见

总结：

基于DRL的方法来解决这些问题。它是根据最新的PPO算法设计的。
由CNN增强的参数共享DNN体系结构可用于近似策略和价值函数。
已经考虑了一系列方法来处理较大的状态和动作空间并提高训练效率。
而无需任何先验的环境动力学知识，并且就长期成本而言，它明显优于许多已知的基线算法。
固定数量的MEC计算资源和V2I传输带宽被假定为每个VT保留。在更一般的条件下，应考虑每个RSU的资源限制。
VT将相互竞争或合作以共享有限的资源。在这种情况下，可能会使用多代理部分可观察的MDP（多代理POMDP）来表述调度调度问题

你可能感兴趣的:(课程笔记,论文阅读)

【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
【基础篇-消息队列】——网关如何接收服务端的秒杀结果小志的博客消息队列消息队列
目录一、网关如何接收服务端的秒杀结果本文来源：极客时间vip课程笔记一、网关如何接收服务端的秒杀结果在《【基础篇-消息队列】——为什么需要消息队列》这节课里面，我们举了一个秒杀的例子，这个例子是用来说明消息队列是如何来实现异步处理的。课后很多同学留言提问，网关在发送消息之后，是如何来接收后端服务的秒杀结果，又如何来给APP返回响应的呢？在解答这个问题之前，我需要先说一下，实际生产环境中的秒杀系统，
【基础篇-消息队列】——详解 RocketMQ 和 Kafka 的消息模型小志的博客消息队列消息队列
目录一、引入前提二、通过示例详解RocketMQ和Kafka的消息模型2.1、示例说明2.2、消息生产端2.3、消息消费端2.3.1、单个消费组2.3.2、多个消费组2.3.3、消费组的内部2.3.4、消费位置本文来源：极客时间vip课程笔记一、引入前提我在看《【基础篇-消息队列】——消息模型中的主题和队列有什么区别》这节课的留言时发现，不少同学对RocketMQ和kafka的消息模型理解的还不是
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读钟屿论文阅读人工智能深度学习学习图像处理计算机视觉
Diff-Retinex：用生成式扩散模型重新思考低光照图像增强摘要本文中，我们重新思考了低光照图像增强任务，并提出了一种物理可解释的生成式扩散模型，称为Diff-Retinex。我们的目标是整合物理模型和生成网络的优点。此外，我们希望通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题表述为Retinex分解和条件图像生成。在Retinex分解中，我
【论文阅读】人工智能在直升机航空电子系统中的应用肥鼠路易论文阅读人工智能航空电子系统应用
人工智能在直升机航空电子系统中的应用论文摘要文章结构参考文献论文摘要论文摘要:在现代战争形势日趋信息化、智能化的背景下，将人工智能应用于武器装备已经是大势所趋。针对直升机飞行任务的特征，对其发展状况进行了描述，并对其作业能力进行了分析，探索了人工智能技术在直升机航电系统中的应用方向，为推进人工智能在直升机上的转化与应用奠定基础。通过对国外先进直升机智能技术的运用现状及对其作业能力的要求进行分析，探
[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁张较瘦_ 前沿技术人工智能论文阅读软件工程
用大语言模型架起软件需求形式化的桥梁：一篇ACM调查草案的深度解读论文信息arXiv:2506.14627ACMSurveyDraftonFormalisingSoftwareRequirementswithLargeLanguageModelsArshadBeg,DiarmuidO’Donoghue,RosemaryMonahanComments:22pages.6summarytablesSu
Reti-Diff: Illumination Degradation Image Restoration with Retinex-based Latent Diffusion Model论文阅读青铜锁00 深度学习论文阅读 #退化论文阅读
Reti-Diff:IlluminationDegradationImageRestorationwithRetinex-basedLatentDiffusionModel1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1整体框架2.2RetinexPriorExtraction(RPE)模块2.2.1Retinex分解2.2.2先验压缩2.3Retinex-guide
SIMPL论文阅读 ZHANG8023ZHEN 论文阅读
论文链接：https://arxiv.org/pdf/2402.02519文章还没细看，但主要贡献点应该是SymmetricFusionTransformer和Bezier-basedMotionDecoder.对Bezier-basedMotionDecoder比较感兴趣，之后对这块细看一下
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
agentformer论文阅读 ZHANG8023ZHEN 论文阅读
参考了这篇博文：https://zhuanlan.zhihu.com/p/512764984主要有这几个部分a.map_encoderi.对地图进行CNNb.ContextEncoderi.timeencoder–将时间信息用transformer和positionemb进行融合，加入到特征中ii.agent-awareattention–self和selfattentionother和other
【基础篇-消息队列】——为什么需要消息队列小志的博客消息队列消息队列
目录一、前提1.1、引入前提1.2、引入示例二、哪些问题适合使用消息队列来解决2.1、异步处理2.2、流量控制2.3、服务解耦三、小结本文来源：极客时间vip课程笔记一、前提1.1、引入前提消息队列是最古老的中间件之一，从系统之间有通信需求开始，就自然产生了消息队列。但是给消息队列下一个准确的定义却不太容易。我们知道，消息队列的主要功能就是收发消息，但是它的作用不仅仅只是解决应用之间的通信问题这么
【论文阅读】DynamicControl ：一种新的controlnet多条件控制方法 prinTao pytorch Diffusion 论文阅读
背景现有方法要么处理条件效率低下，要么使用固定数量的条件，这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件，以实现更可靠和详细的图像合成。为了解决这个问题，我们提出了一个新的框架DynamicControl，它支持不同控制信号的动态组合，允许自适应选择不同数量和类型的条件。本文方法从一个双循环控制器开始，它通过利用预先训练的条件生成模型和判别模型为所有输入条件生
论文阅读：2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd CSPhD-winston-杨帆论文阅读
https://www.doubao.com/chat/9226473480559618https://arxiv.org/pdf/1805.00123CrowdHuman:ABenchmarkforDetectingHumaninaCrowd文章目录论文翻译CrowdHuman：用于检测人群中人体的基准摘要1.引言2.相关工作2.1.人体检测数据集2.2.人体检测框架。论文翻译CrowdHuma
论文阅读：arxiv 2025 OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation CSPhD-winston-杨帆论文阅读
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://www.doubao.com/chat/8815924393371650https://arxiv.org/pdf/2506.02397#page=17.09OThink文章目录速览研究背景与问题核心思路与方法实验结果结论与意义速览这篇论文聚焦于
论文阅读：arxiv 2025 Not All Tokens Are What You Need In Thinking
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2505.17827https://www.doubao.com/chat/8814790364572162文章目录速览研究背景提出的解决方案：条件token选择（CTS）实验结果核心贡献研究局限总结速览这篇论文主要探
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
[论文阅读] 人工智能+软件工程 | 用 LLM + 静态代码分析自动化提升代码质量张较瘦_ 前沿技术论文阅读人工智能软件工程
用LLM+静态代码分析自动化提升代码质量论文信息AugmentingLargeLanguageModelswithStaticCodeAnalysisforAutomatedCodeQualityImprovements@article{abtahi2025augmenting,title={AugmentingLargeLanguageModelswithStaticCodeAnalysisfo
【课程笔记】华为 HCIA-AI Solution 人工智能01：人工智能概览与发展趋势
人工智能概览与发展趋势目录人工智能概览与发展趋势一、人工智能与大模型发展历程1.何为智能2.AI、机器学习、深度学习3.人工智能的主要学派4.人工智能的分类5.人工智能三要素6.大模型大在哪里7.涌现带来的能力8.思维链的作用9.思维链好处二、人工智能领域1.发展趋势2.发展前景三、DeepSeek概览及其产业影响1.DeepSeek对AI产业的影响2.DeepSeek对AI产业发展的启示四、华为
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的