Xieyh@CUC

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning

[1] Zhang H, Zhou A, Lu J, et al. OnRL: improving mobile video telephony via online reinforcement learning[C]. Proceedings of the 26th Annual International Conference on Mobile Computing and Networking, 2020: 1-14.

实时视频通话与点播VoD的不同

VoD客户端通常保持几十秒的播放缓冲区，因此它们对短期（如ms级）的网络动态不敏感。相比之下，视频通话对瞬间的网络流量的细微变化更敏感，模拟器中难以对网络进行如此细致的仿真。
VoD会话的大部分信息是事先知道的，例如，视频块和缓冲区的大小。相比之下，视频通话内容总是即时产生的。设计的算法系统需要在非常短的时间段内迅速作出反应。

离线学习存在的问题？

模拟器很难模拟绝对真实的网络环境
算法受到学习环境的限制，一旦运行在训练中未见过的环境中，算法性能可能骤降

为此，作者设计了一个名为OnRL，基于在线强化学习的实时视频通话系统。OnRL将许多单独的agent直接放入单个视频通话系统中，这些agent实时做出码率决策，并不断更新模型。然后，OnRL将这些agent聚集在一起，形成一个高层次的RL模型，以帮助每个个体对看不见的网络条件做出反应。

主要要解决的三个难点

如何实现并行的在线学习？
如何解决目标码率与实际发送速率之间存在差异的问题？
如何解决RL在线训练初期不稳定的问题？

1. 如何实现并行的在线学习？

在传统的离线学习中，人们可以将收集到的许多单条网络trace串联在一起，最后送入模拟器来训练RL模型。通过这种方式，RL模型可以在不同的环境丰富其经验，并收敛到一个具有从所有用户那里学到经验的通用模型。

然而，在本文的在线学习中，有大量同时运行的视频会话，在此期间，模型需要随着每个会话的实时发展而不断更新。因此，本文最关键的挑战在于如何从串行的离线学习转变为并行的在线学习。

个性化在线学习——以PPO算法为基础设计一个新的RL模型，将一个个独立的RL模型与不同用户相关联。模型在用户使用的过程中不断迭代更新，使得每个用户都在自己个性化的网络环境下更新出不同的RL模型。
学习聚合——按照联邦学习的原则汇总所有用户的经验，从而形成一个高水平的模型，可以对在个性化迭代中没有覆盖到的网络状况作出反应。

整个学习过程在以上两个阶段之间往复，以便在个体化经验和群集智能之间取得平衡。

1.1 个性化在线学习

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第1张图片

- 基于PPO的RL模型（baseline）

State

$S_{t}=\left(\vec{l}_{t}, \vec{d}_{t}, \vec{i}_{t}, t_{t}\right)$

$\vec{l}_{t}$ —— 丢包
$\vec{d}_{t}$ —— 延迟
$\vec{d}_{t}$ —— 延迟间隔（即两个连续的RTP数据包在接收方的到达间隔和在发送方的离开间隔之间的差值）
$t_{t}$ —— 接收端的吞吐量

Action

$\mathcal{A}:\{0.1 M b p s, 0.2 M b p s, \cdots, 2.5 M b p s\}$

代表视频编码器的目标输出比特率

Reward

$r_{t}=\alpha \times \sum_{n=1}^{N} q_{n}-\beta \times \sum_{n=1}^{N} l_{n}-\eta \times \sum_{n=1}^{N} d_{n}-\varphi \times \sum_{n=1}^{N-1}\left|q_{n}-q_{n-1}\right|$

$N$ 代表一个State下的RTP数据包的数量
$q_{n}$ 是在接收方测量的吞吐量，它与视频质量直接相关
$l_{n}$ 是传输层的数据包丢失率
$d_{n}$ 是传输层的数据包延迟
最后一项是通过惩罚大的比特率波动来保证视频的平稳性。

如何统一各个不同量级的变量？

通过调整参数α、β、η、φ的值将这些指标归一到一个一致的范围。在OnRL的实际部署中，它们被分别设定为50、50、10、30。

网络结构

采用两层全连接层，神经元个数分别为64、32。

CNN和LSTM性能不佳的原因分析

CNN擅长提取由复杂的空间信息组成的图像特征，而这些信息在OnRL的状态空间中并不存在。

LSTM对推理考虑到长期历史影响的时间序列数据更有用，但实时视频通话的性能更依赖于瞬时的网络条件。

- 训练

批量更新，而非单一输入更新

存在的问题：如前所述，OnRL需要对每个输入实例作出反应，以适应实时的带宽变化。通常情况下，产生响应的同时也会更新网络参数。然而，这种频繁的更新将在很大程度上增加学习时间，并反过来减慢响应速度。

因此，作者设计了一个批量更新策略。特别是，学习agent缓冲了最近的记录。只有当缓冲区超过规定大小时，agent才会将缓冲区送入网络以更新网络参数。通过这种方式，代理可以实时执行细粒度的反应，同时运行在线学习。

平滑更新

存在的问题：policy网络更新前后差异过大可能导致相邻时间内过于跳跃的码率决策，不利于QoE

对此，OnRL在进行梯度更新时采用如下损失函数，利用clip()进行裁剪
$L(\theta)=\hat{\mathbb{E}}\left[\min \left(\frac{p_{\theta}(s, a)}{p_{\theta_{o l d}}(s, a)} \hat{A}, \operatorname{clip}\left(\frac{p_{\theta}(s, a)}{p_{\theta_{o l d}}(s, a)}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}\right)\right]$

1.2 学习聚合

- 聚合方法

采用加权模型聚合法。

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第2张图片

$$ \bar{W}=\sum_{k=1}^{K} \sum_{i=1}^{I} \sum_{j=1}^{J} \lambda_{k} W_{k, i, j} $$ 采用加权模型聚合法，可分为**平均聚合**和**优先聚合**两种。

平均聚合： $\lambda_{k}=\frac{1}{K}$ for $\in[1, K]$
优先聚合：对于每一个用户 $k$ ，令 $\lambda_{k}=p\ (p \in[0,1])$ , $\lambda_{m}=\frac{1-p}{K-1}, \forall m \neq k$

- 效果

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第3张图片

左图是采用简单的平均聚合的结果，在卡顿和吞吐量上有44.9%和7.3%的提升。这一结果表明，OnRL的学习聚合阶段在利用群体经验后确实有助于提高QoE。
右图是采用优先聚合的结果，优先级模型的不同加权值对QoE指标有一定影响。对于已经有一个训练好的模型的用户来说，通过使用中等聚合权重（即接近0.5）来平衡其个人经验和其他人的经验是比较好的，能达到最佳QoE。

2. 如何解决目标码率与实际发送速率之间存在差异的问题？

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第4张图片

MMSys的比赛中也有提及类似问题 https://2021.acmmmsys.org/rtc_challenge.php

2.1 差异来源

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第5张图片

为保证低延时，当pacer queue积累了大量数据包时，它往往需要提高发送码率以加快队列的排空，此时发送码率可能会高于目标码率
源视频本身分辨率较低时，pacer可能没有足够多的视频数据去满足目标码率，此时发送码率就会低于目标码率

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第6张图片

可以发现，当pacer队列积累了许多数据包，pacer将采用高于目标比特率 $x$ 的发送比特率 $p$ 。相反，当队列几乎为空时，由于没有填充物，实际发送速率通常下降到0。

2.2 导致的问题

存在的问题：RL的action不一定能被有效执行，action和reward有时不能严格对应，造成模型向错误方向更新。

2.3 解决方法

一方面，向state中增加代表发送码率与目标码率差异的 $g_{t}$ ，用新的state代替原state：

$g_{t}=x_{t}-p_{t}$

$S_{t}^{\prime}=\left(\vec{l}_{t}, \vec{d}_{t}, \vec{i}_{t}, t_{t}, g_{t}\right)$

另一方面，一旦它检测到一个大的差异（ $\left|g_{t}\right|>0.5 \mathrm{Mbps}$ ），OnRL将把之前的RL action视为损坏，并通过在累积奖励中施加一个低权重系数（默认为0.5）来降低该action的影响。

通过这种方式，OnRL可以学习 $g_{t}$ 的动态变化，然后通过自动调整其奖励操作来降低影响。

2.4 效果

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第7张图片

通过将偏差作为RL的额外输入，在吞吐量（0.02Mbps）和PSNR（1.68dB）略有牺牲的情况下，卡顿明显下降了55.4%，丢包率下降了10.3%，因此，得出结论，得益于学习action的执行偏差，因此，即使模型的action没有被严格执行，也能达到很高的性能。

3. 如何解决RL在线训练初期不稳定的问题？

存在的问题：典型的RL模型是采用试错法学习的，但与基于模拟的训练不同，通过失败积累经验对在线训练来说是不可接受的。而在线上运行时，任何错误的action都可能导致交互式视频的严重质量下降。特别是在会话初期，RL的不断探索与试错可能导致出现严重的网络拥塞。

因此，需要解决的问题就是如何在保持学习能力的同时降低灾难性探索对QoE的影响？

解决方案：一个确保在线学习可靠性的直接解决方案是将启发式算法和RL算法结合起来，即一旦RL的决策变得过于激进，就切换到保守的算法。

系统框架如下：

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第8张图片

这个系统需要解决两个混合控制所带来的问题：

如何确定启用GCC的时机？
启用GCC算法时，RL的学习被中断，且对网络状况的变化变得不知情。

解决方案：对此，分别设计了一个安全状况检测器和调整了reward的设置。

3.1 安全状况检测器

类似GCC基于延迟的检测机制，基本思想是检测最近收到的延迟序列是否呈现上升趋势。如果是这样，将命令OnRL从RL切换到GCC。

定义包间间隔 $\Delta d\left(t_{i}\right)$

$\Delta d\left(t_{i}\right)=\left(a_{i}-a_{i-1}\right)-\left(s_{i}-s_{i-1}\right)$
则时间间隔T内的包间间隔可表示为
$\left\{\Delta d\left(t_{0}\right), \Delta d\left(t_{1}\right), \ldots, \Delta d\left(t_{T}\right)\right\}$
对其进行指数加权平均
$D\left(t_{i}\right)=\sum_{i=1}^{T} 2^{-i} \times \Delta d\left(t_{T-i}\right)$
其中，时间越近的延迟，在 $D\left(t_{i}\right)$ 中的权重就越大。

一旦 $D\left(t_{i}\right)$ 超过阈值 $\gamma(t)$ ，滤波器预测QoE下降的高风险，然后切换到GCC。由于GCC对延迟敏感，其控制策略将立即降低当前的发送比特率，从而缓解风险状况。一旦条件恢复到安全状态（即没有延迟增长的趋势），RL策略将进行控制。

阈值 $\gamma(t)$ 的更新策略如下
$\gamma\left(t_{i}\right)=\gamma\left(t_{i-1}\right)+k_{\gamma} \times\left(\left|D\left(t_{i}\right)\right|-\gamma\left(t_{i-1}\right)\right)$

3.2 切换惩罚

每个切换事件都被配置为agent奖励函数中的一个额外惩罚。通过这种方式，它将学会适当的行动，从而在未来尽可能少地切换到GCC。

具体来说，设计了一个自适应的惩罚参数 $\eta^{\prime}$ 来取代奖励函数中原有的默认 $\eta$ 。
$r_{t}=\alpha \times \sum_{n=1}^{N} q_{n}-\beta \times \sum_{n=1}^{N} l_{n}-\eta^{\prime} \times \sum_{n=1}^{N} d_{n}-\varphi \times \sum_{n=1}^{N-1}\left|q_{n}-q_{n-1}\right|$

$\eta^{\prime}=\eta \times 2^{\epsilon}, \text { subject to } \epsilon=\text { latency } / 10$

3.3 效果

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第9张图片

该表总结了纯RL和混合两种方案在相同的1小时内运行时的性能。观察到，Robust-RL可以显著提高鲁棒性：卡顿和丢包分别降低了56.9%和63.5%。另一方面，Robust-RL在保持相同的吞吐量的同时，将PSNR提高了3.57dB。

4. 具体部署

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第10张图片

在运行中的Taobao-Live的基础上实现了OnRL，并将其作为一个测试版应用发布给用户。Taobao-Live建立在WebRTC之上，这是一个实时视频通信框架，内置支持视频编解码器和传输层协议（即GCC）。

理想情况下，OnRL的组件应该在Taobao-Live应用程序中实现。然而，由于缺乏在移动设备上训练RL神经网络的API支持，引入了一个RL cloud server作为辅助服务器。

4.1 个性化学习阶段

在每个电话会话中，发送方保持连接并与RL服务器交换信息。它从接收方收集RTCP反馈（即丢包、延迟、吞吐量等），并将其发送给RL服务器作为OnRL的输入。然后，OnRL处理输入并向发送方返回一个动作（即目标视频比特率），然后由Taobao-Live执行。同时，服务器上的OnRL模块定期更新其控制策略以实现在线学习。

4.2 学习聚合阶段

此外，部署了一个后端服务器，以每天一次的频率进行学习聚合（通常在用户活动最少的清晨）。

5. 测试与评估

【文献阅读】OnRL:improving mobile video telephony via online reinforcement learning_第11张图片

将三个离线训练的模型（包括在模拟器中训练的Concerto和PPO模型（简称PPOs），以及在测试平台上训练的PPO模型（简称PPO t））和OnRL整合到Taobao-Live系统中。然后，在一个随机选择的用户身上运行这些模型。

左图显示OnRL实现了最好的QoE。
右图OnRL也显示出最小的延迟和丢失率，这证实了其应对不同网络的能力。

OnRL的优势在处理网络波动较大的状况时变得更加突出。以图3为例，OnRL在4G状况下的丢包率明显低于WebRTC

其余测试结果详见paper原文

6. 局限与展望

由于缺乏RL训练的移动平台，关键的设计模块位于远程云服务器而不是移动设备中。
学习聚合方面，未来可考虑按照不同的应用场景对用户进行分组，细化聚合的方法。
评估结果表明，RL在处理波动很大的方面表现出明显的优势，但在稳定的网络条件下，有时表现得不如启发式的方法。未来可能可以考虑根据网络动态变化的程度来整合强化学习和启发式，

## PCDN中的网络拥塞控制技术探讨 yczykjyxgs pcdn 网络智能路由器
随着互联网视频流量的爆发式增长，传统CDN面临着成本高、扩展性差等挑战。P2PCDN（PCDN）作为一种新兴的内容分发网络架构，通过利用边缘节点的闲置带宽和存储资源，有效降低了内容分发成本，并提升了网络扩展性。然而，PCDN中节点动态性强、网络环境复杂，传统的网络拥塞控制技术难以直接适用，因此需要针对PCDN的特点设计新的拥塞控制机制。PCDN网络拥塞控制面临的挑战1.节点异构性:PCDN节点性能
TCP、UDP、HTTP、WebSocket 和 MQTT协议区别 PHPlai php tcp/ip udp http
目录1.TCP协议2.UDP协议3.HTTP协议4.WebSocket协议5.MQTT协议总结1.TCP协议类型：面向连接的协议。可靠性：提供可靠的数据传输，确保数据包按顺序到达。流量控制：具备流量控制与拥塞控制机制。适用场景：适合对数据传输可靠性要求高的应用，如文件传输、网页加载。2.UDP协议类型：无连接的协议。可靠性：不保证数据包的可靠传输，可能会丢失、重复或顺序错乱。流量控制：不具备流量控
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
WebRTC、WebSocket、EasyRTC嵌入式音视频SDK：技术差异与应用场景详细对比 EasyCVR RTC webrtc websocket 音视频 javascript 网络开发语言
WebRTC和WebSocket是两种常用于实时通信的技术，尽管它们都支持实时数据传输，但在设计目标、技术实现和应用场景上存在显著差异。一、概述1）WebRTCWebRTC是一个开源项目，旨在通过简单的API实现浏览器之间的实时音视频通信和数据传输。它支持点对点（P2P）通信，主要应用于音视频通话、屏幕共享、文件传输等场景。2）WebSocketWebSocket是一种基于TCP的通信协议，提供了
WebRTC 介绍 KillFuckBugs webrtc
WebRTC简介WebRTC（WebRealTimeCommunication，网页实时通信）是一个开源项目和技术标准，旨在为浏览器和应用程序提供实时通信功能，无需额外的插件或第三方软件。它最初由Google在2011年发起，现由W3C（万维网联盟）和IETF（互联网工程任务组）共同维护和标准化。WebRTC的核心目标是实现低延迟、高质量的音视频通信以及点对点数据传输，广泛应用于视频会议、实时聊天
网络协议与安全：WebSocket/WebRTC(2) 双囍菜菜前端随记网络协议安全 websocket
前端实时通信双雄：WebSocket与WebRTC的生存实战指南文章目录前端实时通信双雄：WebSocket与WebRTC的生存实战指南一、当HTTP遇到实时场景：在线课堂的卡顿之痛二、WebSocket：双向通信的热线电话2.1协议握手过程解析2.2React实时聊天实现2.3Vue股票行情展示三、WebRTC：点对点直连的终极方案3.1核心架构三要素3.2视频会议实现（React版）3.3文件
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
DeepSeek在智慧物流管控中的全场景落地方案猴的哥儿笔记大数据交通物流 python 数据仓库微服务
一、智慧物流核心痛点与DeepSeek解决方案矩阵物流环节行业痛点DeepSeek技术方案价值增益仓储管理库存预测误差率>30%多模态时空预测模型库存周转率↑40%运输调度车辆空驶率35%强化学习动态调度引擎运输成本↓25%路径规划突发路况响应延迟>30分钟实时路况语义理解+自适应规划准时交付率↑18%异常检测50%异常依赖人工发现多传感器融合的异常模式识别异常发现时效↑6倍客户服务50%咨询需人
探索DeepSeek：前端开发者不可错过的新一代AI技术实践指南 formerlyai 人工智能前端
引言：为什么DeepSeek成为技术圈焦点？最近，国产AI模型DeepSeek凭借其低成本训练、高性能输出和开源策略，迅速成为开发者社区的热门话题。作为覆盖语言、代码、视觉的多模态技术矩阵，DeepSeek不仅实现了与ChatGPT相媲美的能力，还通过强化学习驱动的架构创新，解决了大模型落地中的成本与效率瓶颈。对于前端开发者而言，DeepSeek的API接入能力和私有化部署方案，为智能应用开发提供
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
在卫星通信网络中的TCP/IP 协议适应性研究欣傅 php 服务器网络
目录引言卫星通信网络的特点高延迟特性高误码率带宽受限与动态变化TCP/IP协议在卫星通信网络中面临的挑战拥塞控制机制失效重传机制效率低下协议开销过大TCP/IP协议在卫星通信网络中的适应性改进优化拥塞控制机制改进重传机制降低协议开销结论引言卫星通信网络凭借其覆盖范围广、不受地理条件限制等优势，在全球通信领域发挥着愈发重要的作用。从偏远地区的通信保障到海上船只的网络连接，卫星通信填补了地面通信网络的
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于DeepSeek R1构建下一代Manus通用型AI智能体的技术实践 zhangjiaofa DeepSeek R1&AI人工智能大模型 DeepSeek Manus 智能体 AI
目录一、技术背景与目标定位1.1大模型推理能力演进趋势1.2DeepSeekR1核心特性解析-混合专家架构(MoE)优化-组相对策略优化(GRPO)原理-多阶段强化学习训练范式1.3Manus智能体框架设计理念-多智能体协作机制-安全执行沙箱设计二、系统架构设计2.1整体架构拓扑图-分层模块交互机制-数据流与控制流设计2.2核心组件实现-规划模块(GRPO算法集成)-记忆系统分级存储架构-工具调用
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
WebRTC的ICE之STUN协议 chen_song_ WebRTC源码探秘 webrtc 音视频
WebRTC的ICE之STUN协议WebRTC的ICE之STUN协议WebRTC的ICE之STUN协议前言一、STUN协议二、STUN协议头格式三、STUNHeader四、STUNMessageType1、C0C12、STUN信息类型3、大小端模式五、StunMagicCookie六、TransactionID事务ID七、STUNMessageBody八、RFC3489定义的属性九、WebRTC中
WebRTC中音视频服务质量QoS之RTT衡量网络往返时延的加权平均RTT计算机制‌详解 chen_song_ WebRTC源码探秘 webrtc 音视频网络
WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解WebRTC中音视频服务质量QoS之RTT衡量网络往返时延加权平均RTT计算机制‌的详解前言一、RTT网络往返时延的原理‌1、基于发送端（SR/RR模式）①.‌基本定义‌②.‌计算RTT网络往返时延的原理‌③发送Sender
大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建（initial）大模型科普人工智能强化学习
1.引言大型语言模型（LLM）在自然语言处理领域的突破，展现了强大的知识存储、推理和生成能力，为人工智能带来了新的可能性。强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。为了更好地理解这一融合的潜力，我们基于“LargeLanguageModela
强化学习-Chapter2-贝尔曼方程 Rsbs 算法机器学习概率论
强化学习-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…)∣St=s]=E[rt+1+γGt+1∣St=s]=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(R
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力 accurater 人工智能深度学习 R1-Searcher
关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A
文献阅读 | PNAS | 经验和发育中的前额叶皮层程序员
:::block-1文献介绍文献题目：经验和发育中的前额叶皮层\研究团队：BryanKolb（加拿大莱斯布里奇大学）\发表时间：2012-10-08\发表期刊：PNAS\影响因子：9.4\DOI：10.1073/pnas.1121251109:::摘要前额叶皮层（PFC）接收来自所有其他皮层区域的输入，并负责规划和指导跨时间的运动、认知、情感和社会行为。它具有较长的发育过程，这使得它能够通过经验获
【考研计算机网络】课堂笔记4 第四章网络层_Network Layer 刘鑫磊up #操作系统计算机网络计算机网络
文章目录：一：网络层的功能1.异构网络互联2.路由与转发功能3.拥塞控制二：数据交换方式三：路由算法1.静态路由与动态路由1.1静态路由算法（又称非自适应路由算法）1.2动态路由算法（又称自适应路由算法)2.动态路由算法2.1距离-向量路由算法2.2链路状态路由算法2.3层次路由四：IPV41.概述2.IPV4分组2.1IPV4分组格式2.2IP数据报分片2.3网络层转发分组的流程3IPV4地址与
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
一文读懂强化学习：从基础到应用 LHTZ 算法时序数据库大数据数据库架构动态规划
强化学习是什么强化学习是人工智能领域的一种学习方法，简单来说，就是让一个智能体（比如机器人、电脑程序）在一个环境里不断尝试各种行为。每次行为后，环境会给智能体一个奖励或者惩罚信号，智能体根据这个信号来调整自己的行为，目的是让自己在未来能获得更多奖励。就像训练小狗，小狗做对了动作（比如坐下），就给它零食（奖励），做错了就没有零食（惩罚），慢慢地小狗就知道怎么做能得到更多零食，也就是学会了最优行为。强
WebRTC技术在音视频处理上的难点剖析：EasyRTC嵌入式视频通话SDK的优化策略 Black蜡笔小新 EasyRTC webrtc 音视频大模型人工智能
在实时通信领域，WebRTC技术因其开源、高效、低延迟等特性而备受瞩目。然而，尽管WebRTC技术已经相对成熟，但在实际应用中仍然面临诸多挑战。一、网络相关问题（一）网络延迟与稳定性在网络基础设施薄弱或带宽有限的地区，实时通信质量会大打折扣。此外，不同网络运营商之间的差异以及网络拥塞高峰时段，也会导致延迟飙升、丢包率增加。EasyRTC解决方案：EasyRTC通过优化网络传输技术，采用先进的智能路
QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用大势下的牛马搭建本地gpt RAG 知识库人工智能 QwQ-32B
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。它在数学推理、编程等复杂问题解决任务上表现出色，性能可媲美拥有6710亿参数的DeepSeek-R1。QwQ-32B在多个基准测试中表现出色，例如在AIME24基准上，其数学问题解决能力得分达到79.5，超过OpenAI的o1-mini。它在LiveBench、
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情