IE06

强化学习系列13：基于pytorch的框架“天授”

1. 基本架构

1.1 架构图

底层实现的关系如下：

1.2 组件介绍（重要）

1.2.1 数据组（Batch）

数据组是平台内部各个模块之间传递数据的基本数据结构。
它支持任意关键字初始化、对任意元素进行修改，以及嵌套调用和格式化输出的功能。如果数据组内各个元素值的第0维大小相等，还可支持切分（split）操作。数据组保留了如下7个关键字：

obs：t 时刻的观测值 $o_t$ ；
act： t 时刻策略采取的动作值 $a_t$ ；
rew： t 时刻环境反馈的奖励值 $r_t$ ；
done： t 时刻环境结束标识符 $d_t\in\{0,1\}$ ，0为未结束，1为结束；
obs_next： t+1 时刻的观测值 $o_{t+1}$ ；
info： t 时刻环境给出的环境额外信息 $i_t$ ，以字典形式存储；
policy： t 时刻策略在计算过程中产生的数据 $p_t$ 。

1.2.2 数据缓冲区（Buffer）

数据缓冲区存储策略与环境交互产生的数据。在采样时，如果传入大小是0，则返回整个缓冲区中的所有数据，以支持在同略学习算法的训练需求。

目前数据缓冲区的类型有：最基本的重放缓冲区（Replay Buffer），使用列表作为底层数据结构的列表缓冲区（List Replay Buffer）、优先级经验重放缓冲区（Prioritized Replay Buffer）支持优先权重采样。此外数据缓冲区还支持历史数据堆叠采样（例如给定采样时间下标 t 和堆叠帧数 n ，返回堆叠的观测值 $\{o_{t-n+1}, \dots, o_t\} ）$ 和多模态数据存储（需要存储的数据可以是一个字典）。

1.2.3 环境（Env）

环境接口遵循OpenAI Gym定义的通用接口，即每次调用 step 函数时，需要输入一个动作 $a_t$ ，返回一个四元组：下一个观测值 $o_{t+1}$ 、这个时刻采取动作值 $a_t$ 所获得的奖励 $r_t$ 、环境结束标识符 $d_t$ 、以及环境返回的其他信息 $i_t$ 。

为使所有强化学习算法支持并行环境采样，天授封装了几个不同的向量化环境类，以第0个维度来区分是哪个环境产生的数据。

1.2.4 策略（Policy）

策略是强化学习算法的核心。智能体除了需要做出决策，还需不断地学习来自我改进。包括4个模块：
__init__：策略的初始化，比如初始化自定义的模型（Model）、创建目标网络（Target Network）等；
forward：从给定的观测值 $o_t$ 中计算出动作值 $a_t$ ，对应Policy到Model的调用和Collector到Policy的调用；
process_fn：在获取训练数据之前和数据缓冲区进行交互，对应Policy到Buffer的调用；
learn：使用一个数据组进行策略的更新训练，中对应Trainer到Policy的调用。

1.2.5 模型（Model）

模型为策略的核心部分。为了支持任意神经网络结构的定义，天授只是规定了模型与策略进行交互的接口，从而让用户有更大的自由度编写代码和训练逻辑。模型的接口定义如下：

输入：
obs：观测值，可以是NumPy数组、torch张量、字典、或者是其他自定义的类型；
state：隐藏状态表示，为RNN使用，可以为字典、NumPy数组、torch张量；
info：环境信息，由环境提供，是一个字典；
输出
logits：网络的原始输出，被策略用于计算动作值；比如在DQN [MKS+15] 算法中 logits 可以为动作值函数，在PPO [SWD+17] 中如果使用对角高斯策略，则 logits 可以为 ( $\mu, \sigma$ ) 的二元组；
state：下一个时刻的隐藏状态，为RNN使用；
policy：策略输出的中间值，会被存储至重放缓冲区中，用于后续训练时使用。

1.2.6 采集器（Collector）

采集器定义了策略与环境交互的过程。采集器主要包含以下两个函数：

collect：让给定的策略和环境交互至少 $n_s$ 步、或者至少 $n_e$ 轮，并将交互过程中产生的数据存储进数据缓冲区中；
sample：从数据缓冲区中采集出给定大小的数据组，准备后续的策略训练。

为了支持并行环境采样，采集器采用了缓存数据缓冲区，即同时和多个环境进行交互并将数据存储在对应的缓存区中，一旦有一个环境的交互结束，则将对应缓存区的数据取出，存放至主数据缓冲区中。由于无法精确控制环境交互的结束时间，采集的数据量有可能会多于给定数值，因此在采集中此处强调“至少”。

采集器理论上还可以支持多智能体强化学习的交互过程，将不同的数据缓冲区和不同策略联系起来，即可进行交互与数据采样。

1.2.7 训练器（Trainer）

训练器负责最上层训练逻辑的控制，例如训练多少次之后进行策略和环境的交互。现有的训练器包括同策略学习训练器（On-policy Trainer）和异策略学习训练器（Off-policy Trainer）。

平台未显式地将训练器抽象成一个类，因为在其他现有平台中都将类似训练器的实现抽象封装成一个类，导致用户难以二次开发。因此以函数的方式实现训练器，并提供了示例代码便于研究者进行定制化训练策略的开发。

2. 简单应用

接下来将通过一段伪代码的讲解来阐释上述所有抽象模块的应用。

s = env.reset()
buf = Buffer(size=10000)
agent = DQN()
for i in range(int(1e6)):
    a = agent.compute_action(s)
    s_, r, d, _ = env.step(a)
    buf.store(s, a, s_, r, d)
    s = s_
    if i % 1000 == 0:
        bs, ba, bs_, br, bd = buf.get(size=64)
        bret = calc_return(2, buf, br, bd, ...)
        agent.update(bs, ba, bs_, br, bd, bret)

以上伪代码描述了一个定制化两步回报DQN算法的训练过程。

3. 基础策略描述

区别于使用lookup table的一般强化学习，深度强化学习中学习的是神经网络黑盒 $\pi$ 中的参数 $\theta$ ，这里 $\pi$ 是一个 $s_{\theta}\to p(a)$ 的策略，因此目标函数为最大化
(1) $\sum_{\tau}\pi G$ 。

3.1 策略梯度（PG）

上世纪九十年代被提出，依靠蒙特卡洛采样直接进行对累计折扣回报的估计，将公式 (1) 中的 $\pi$ 改为 $\log\pi$ 后对 $\theta$ 进行求导，然后用梯度上升法迭代求解。
$(2)\nabla_\theta J= \sum_{\tau} \pi \nabla_\theta\log\pi G=E[\nabla_\theta\log\pi G]$
形式非常简洁，计算时也很简单，展开为
(3) $E[\Sigma_t \nabla_\theta\log\pi(a_t|s_t) G]$
求得累计回报 G、每次采样的数据点在策略函数中的对数概率 $\log\pi(a_t|s_t)$ 之后即可对参数 $\theta$ 进行求导，从而使用梯度上升方法更新模型参数。
策略梯度算法在天授中的实现十分简单：

process_fn：计算 G_t，具体实现位于广义优势函数估计器（GAE）；
forward：给定 o_t 计算动作的概率分布，并从其中进行采样返回；
learn：按照公式 (3) 计算 G_t 与动作的对数概率 \log\pi_\theta(a_t|o_t) 的乘积，求导之后进行反向传播与梯度上升，优化参数 \theta；
采样策略：使用同策略的方法进行采样。

如果没有仿真模型的话，在实际过程中我们进行交互的次数往往是有限的，学习成本很高，样本不足会造成策略波动太大的问题，业界发展了一些新的方法来处理这个问题。

3.2 A2C->TRPO->PPO

A2C：优势动作评价
在Actor-Critic方法中，我们采用几种措施来降低算法的方差，首先是使用独立的模型代替轨迹的长期回报G（比如TD-error， $g_t= \Sigma_{i=1...n}\gamma^i r_{t+i}+v(s_{t+n})-v(s_t)$ ），称为Critic；原来用于行动的策略模型称为Actor。
其次，在实际更新时又有异步和同步两种方法。分别称为A3C(Asynchronous Advantage Actor-Critic)和A2C(Advantage Actor-Critic)。OpenAI在官方博客中提到A2C效果比A3C要好。
再者，目标函数中加入策略的熵，以增加不确定性进行一定量的探索，并且为了让评价网络的输出尽可能接近真实的状态值函数，在优化过程中还加上了对应的均方误差项；
TRPO：置信区域策略优化
在上面的算法中，学习率α是固定的。我们想要自动选择合适的步长避免模型震荡，这里就要用到TRPO方法。TRPO全称trust region policy optimization，其目标是每次更新策略后，回报函数的值不能变差。其核心是如下公式： $J_{\pi'}=J_{\pi}+E_{\pi'}[\Sigma_t\gamma^tA_{\pi}]$
注意其中 $\pi'$ 和 $\pi$ 分别代表新策略和旧策略，后面计算期望的时候，用新策略采样，用旧策略计算优势函数。经过一系列tricky的处理之后，求解函数变为：
min ⁡ ∇ L x ∗ ( θ − x ) \min \nabla L_{x}*(\theta-x)min∇L
x

∗(θ−x)
s.t. 1 2 ( θ − x ) T I θ ( θ − x ) ≤ δ \frac{1}{2}(\theta-x)^TI_{\theta}(\theta-x)\le\delta
2
1

(θ−x)
T
I
θ

(θ−x)≤δ
其中L x = E [ π x π θ A θ ] L_x=E[\frac{\pi_x}{\pi_{{\theta}}}A{\theta}]L
x

=E[
π
θ

π
x

A
θ

]，I θ I_{\theta}I
θ

为fisher阵，TRPO算法使用共轭梯度法计算fisher阵。
Baselines中的使用方法和A2C类似，把模型名字换掉即可。

你可能感兴趣的:(强化学习系列)

Java技术栈/面试题合集(16)-SpringCloud篇霸道流氓气质 Java进阶 Java SpringCloud 微服务面试
场景Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享：Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享_java高级进阶-CSDN博客通过对面试题进行系统的复习可以对Java体系的知识点进行查漏补缺。注：博客：霸道流氓气质-CSDN博客实现什么是SpringCloud？一、SpringCloud的核心定位1.定义SpringC
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
OpenCSG AutoHub v0.5.0 版本发布 OpenCSG 人工智能开源社区
OpenCSGAutoHubv0.5.0版本发布作为一款智能化自动化操作的浏览器插件，AutoHub不断致力于为用户提供更加高效、便捷的网页浏览体验。本次v0.5.0版本的发布，不仅进一步强化了核心功能，还引入了一些创新特性，旨在帮助用户更智能地管理和执行网页操作任务。无论是通过优化工作流执行、提升操作灵活性，还是通过更多智能集成功能，AutoHub都将使您的浏览器操作变得更加轻松和高效。从用户体
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
行业锦标赛激励数据集（2008-2023）数据皮皮侠AI 人工智能大数据物联网矩阵动态规划
1771行业锦标赛激励数据集（2008-2023）数据简介坚持创新驱动发展，要强化企业创新主体地位，发挥企业家在技术创新中的重要作用。作为企业组织内部最具有影响力的角色，高级管理人员拥有企业经营管理的自由裁量权，对企业战略决策及由此产生的经营绩效具有举足轻重的影响。合理的薪酬契约安排是促进员工努力工作并提高企业绩效的重要手段。效率视角下的锦标赛理论主要关注企业内部薪酬差距的激励效应，但随着信息技术
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
这是gpt o1给出的物联网工程专业的大学规划，有人看看这个合理吗？王倚山 gpt 物联网学习开发语言
下面是一份更为详细、覆盖全年（包括寒暑假）的四阶段学习规划，旨在帮助你在大学剩余时间里持续学习、循序渐进地掌握物联网（IoT）核心技能，打造深厚的技术壁垒。每个阶段都有明确的学习目标与自学内容细节，并在寒暑假安排了“强化期”任务，让你全年不停歇，不断提升。总体思路稳扎稳打：从嵌入式基础到RTOS、传感器驱动、通信协议，再到边缘计算、云平台、工业协议、安全攻防，层层深入。项目驱动：每个阶段至少完成1
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
【半导体设备通信SECS】SEMI E30协议标准都有哪些历史版本，分别发表时间及升级内容介绍 SunkingYang #SECS协议 SEMI 半导体协议 E30 历史版本升级内容各版本信息
文章目录协议标准下载地址一、初始版本与核心框架建立二、技术扩展与功能强化三、技术融合与智能化升级四、最新演进与未来方向协议标准下载地址【半导体设备通信SECS协议文档】SEMIE5-0200A(中英文混版)：SECS-II消息内容定义及应用详解【半导体设备通信SECS协议文档】SEMIE5-0301(中英文混版)：SECS-II消息内容定义及应用详解【半导体设备通信】SEMIE5-1104标准(中
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
【领码思考】ESG画卷里的项目管理新篇：AI赋能下的绿色智造之路领码科技央国企理念篇 AI应用人工智能 ESG 项目管理 AI赋能绿色转型可持续发展
摘要ESG（环境、社会、治理）理念正悄然融入项目管理的每个细胞，成为驱动项目成功的新引擎。本文聚焦ESG如何与项目管理深度融合，立体呈现各阶段ESG应用场景，围绕AI与数字化工具的协同赋能，解析项目经理如何在绿色转型中实现角色跃迁。通过流程图与表格精炼框架，强化理论指导与实践操作，并结合当下热点新技术，旨在为项目团队和企业管理层提供清晰可落地的全周期ESG实施路径，开启项目管理可持续发展的智慧新纪
小程序的「双线程模型」 TE-茶叶蛋小程序开发小程序
文章目录前言一、双线程模型结构概览二、逻辑层（AppService）示例：️三、渲染层（WebView）示例（WXML）：四、通信机制（Native层桥接）⚙️通信方式：底层实现方式：五、为什么这么设计？缺点与限制总结结构图✅实践建议扩展小程序双线程模型的**进阶架构扩展**一、支持WebWorker的多线程能力（逻辑层并发能力增强）✅使用示例：⚠️注意：二、沙箱机制强化（增强渲染安全）三、小程序
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【网工|知识升华版|实验】3 NAT原理及应用 Jackilina_Stone 【ES】平时经验总结 #网络工程师网络服务器网工软考华为
目录■基础知识■强化理解▲静态NAT▲动态NAT▲NAPT▲EasyIP▲NATServer■总结■基础知识【网工】华为配置基础篇③-CSDN博客■强化理解▲静态NAT在R1上配置静态NAT将内网主机的私有地址
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
浅谈边缘计算与 CDN 融合发展趋势
目录前言一、边缘计算与CDN技术概述1、边缘计算：靠近数据源的高效处理2、CDN：内容分发的加速引擎二、边缘计算与CDN融合的优势1、更低的延迟与更快的响应速度2、减轻云数据中心负载3、提高数据安全性4、优化资源分配三、融合面临的挑战1、节点部署与维护难题2、数据同步与一致性问题3、跨域互操作与标准化缺失四、融合发展趋势1、深度融合与协同优化2、智能化与自动化管理3、安全和隐私保护强化4、跨领域应
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
注意力机制还有招？混合注意力好发不卷
2025深度学习发论文&模型涨点之——混合注意力混合注意力是一种融合多种不同类型注意力机制的技术，旨在提升模型对数据中关键特征的识别与处理能力。以SENet为例，它通过对特征通道进行全局池化操作，随后利用两个全连接层对通道的重要性进行建模，从而实现通道级的注意力分配。而CBAM则先应用空间注意力，通过利用特征图的通道最大值和平均值来突出重要区域，之后再进行通道注意力操作，借助全连接层来强化特定通道
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他