智源社区

《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用

No.18

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICML-2021学术会议中，为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第18期《强化学习周刊》。本期周刊整理了ICML-2021中强化学习领域相关的最新论文推荐和新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明，刘青，小会

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步。人工智能顶会ICML-2021对强化学习取得了一系列瞩目的进展进行了发布，比如约束惩罚强化学习、基于部分可观测马尔科夫决策过程强化学习相关的理论及其最新应用等。

本次推荐了11篇ICML-2021强化学习领域的相关论文，主要涉及基于安全离线强化学习和基于稀疏奖励的约束强化学习、基于表征的强化学习、基于部分可观测马尔科夫决策过程强化学习、基于不确定性加权的Actor-Critic离线强化学习、基于约束不匹配的策略加速安全强化学习、基于彩虹算法的深度强化学习、基于深度强化学习的知识迁移等。

标题：Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning（基于安全离线强化学习的约束惩罚Q学习）了解详情

简介：本文研究了安全离线强化学习(RL) 的问题，其目标是通过学习一种策略，在满足仅给定离线数据的情况下最大化长期奖励，且同时满足安全约束，而无需与环境进一步交互。此问题对真实环境中的 RL 应用更具吸引力，因为实际应用中数据收集成本高昂或危险。强制约束满足非常重要，尤其是在离线设置中，因为策略分布和数据分布之间存在潜在的巨大差异，从而导致估计安全约束值时出现错误。研究表明，结合安全 RL 和离线 RL 技术的简单方法只能学习次优解决方案。因而，本文提出了一个简单而有效的算法，约束惩罚 Q-学习（CPQ）来解决此问题。该方法允许使用由混合行为策略生成的数据。此外，本文还提出了一个理论分析，并凭经验证明该方法可以在各种基准控制任务中稳健地学习，且优于多个基线。

论文链接：https://arxiv.org/pdf/2107.09003.pdf

标题：Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks（基于稀疏奖励任务的最短路径约束强化学习）了解详情

简介：本文提出了k-最短路径（k-SP）约束：一种对agent轨迹的新约束，它提高了稀疏奖励在MDP中的样本效率。研究证明了任何最优策略都必须满足k-SP约束。值得注意的是，k-SP约束阻止策略沿非k-SP轨迹探索状态-动作对（例如，来回）。然而，在实践中，排除状态-动作对可能会阻碍RL算法的收敛。为了克服此问题，本文提出了一种新颖的成本函数来惩罚违反策略的SP约束，而不是完全排除它。在表格RL环境中的数值实验表明，SP约束可以显著减少策略的轨迹空间。因此，该约束通过抑制冗余探索和开发，实现了更有效的样本学习。在MiniGrid、DeepMind Lab、Atari和Fetch上的实验表明，所提出的方法显著改进了近端策略优化（PPO），并优于现有的新颖性探索方法，包括基于计数的探索，即使在连续控制任务中，表明它通过防止智能体执行冗余动作来提高采样效率。

论文链接：https://arxiv.org/pdf/2107.06405.pdf

标题：RRL: Resnet as representation for Reinforcement Learning（RRL：基于Resnet表征的强化学习）了解详情

简介：通过在非仪器化环境中的直接交互自主学习行为的能力可以导致通用机器人能够提高生产力或在非结构化环境（如家庭）中提供护理。这种未经仪表化的设置保证仅使用机器人的本体感受传感器（例如车载摄像头、关节编码器等）进行操作，由于高维和部分可观察性问题，这对策略学习可能具有挑战性。故本文提出 RRL：Resnet 作为强化学习的表示——一种直接而有效的方法，可以直接从本体感受输入中学习复杂的行为。RRL 将从预训练的 Resnet 中提取的特征融合到标准强化学习管道中，并提供与直接从状态学习相当的结果。在模拟灵巧操作基准测试中，最先进的方法未能取得重大进展，RRL 提供了丰富的接触行为。RRL 的吸引力在于它简单地汇集了来自表示学习、模仿学习和强化学习领域的最新研究。其直接从视觉输入中学习行为的有效性，与直接从状态中学习的性能和样本效率相匹配，即使在复杂的高维域中，也远非显而易见。

论文链接：https://arxiv.org/pdf/2107.03380.pdf

标题：Structured World Belief for Reinforcement Learning in POMDP（基于POMDP强化学习的结构化世界信念）了解详情

简介：以对象为中心的世界模型提供了场景的结构化表示，可以成为强化学习和规划的重要支柱。然而，由于缺乏信念状态，现有的方法在部分可观察的环境中受到影响。本文提出了结构化世界信念，一种以对象为中心的信念状态学习和推理模型。通过序贯蒙特卡罗（SMC）推断，该信念状态提供了多个以对象为中心的场景假设。为了将SMC粒子的优点与对象表示相结合，本文还提出了一种新的以对象为中心的动力学模型，该模型考虑了对象持久性的诱导偏差。这使跟踪对象状态成为可能，即使对象状态长时间不可见。为了进一步促进在这种情况下的目标跟踪，允许提出的模型灵活地处理图像中的任何空间位置，这在以前的模型中是受到限制的。实验研究证明了以对象为中心的信念为过滤和生成提供了更准确、更稳健的性能。此外，本文还证明了结构化世界信念在提高强化学习、计划和监督推理性能方面的有效性。

论文链接：https://arxiv.org/pdf/2107.08577.pdf

论文标题：Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning(不确定性加权演员批评的离线强化学习)

了解详情

简介：离线强化学习有望从以前收集的静态数据集中学习有效的策略，而无需进行探索。但是，从分布失调（OOD）动作或状态进行引导时，现有的基于Q学习和基于行为者批评的策略RL算法将失败。假设现有方法中的一个关键缺失要素是对离线环境中不确定性的正确处理。本文提出了不确定加权演员关键（UWAC）算法，该算法可检测OOD状态-动作对并相应地降低其在训练目标中的贡献。在实现方面，本文采用一种实用且有效的基于辍学的不确定性估计方法，与现有的RL算法相比，其引入的开销很小。根据经验，UWAC在训练过程中大大提高了模型的稳定性。此外，UWAC在各种竞争性任务上的性能均优于现有的离线RL方法，并在从人类专家那里收集的稀疏演示数据集的基础上，以最先进的基准获得了显着的性能提升。

论文链接：https://arxiv.org/pdf/2105.08140.pdf

标题：Average-Reward Off-Policy Policy Evaluation with Function Approximation(具有函数逼近的平均奖励离职政策评估)

了解详情

简介：本文考虑在平均奖励MDP中采用函数逼近（FA）进行非政策性政策评估，其目的是估计奖励率和差值函数。对于这个问题，引导是必要的，并且与非政策性学习和FA一起导致致命的三合会（Sutton＆Barto，2018）。为了解决致命的三合会问题，提出了两种新颖的算法，在平均奖励设置中重现了Gradient TD算法的成功案例。就估计微分值函数而言，这些算法是第一种收敛的非策略线性函数近似算法。在估计奖励率方面，这些算法是不需要收敛密度比的第一个收敛的非策略线性函数近似算法。

论文链接：https://arxiv.org/pdf/2101.02808.pdf

标题：Accelerating Safe Reinforcement Learning with Constraint-mismatched Policies(使用约束不匹配的策略加速安全强化学习)了解详情

简介：当提供（1）基线控制策略和（2）受控系统必须满足的一组约束时，一般会考虑强化学习的问题。基线策略可能来自教师代理、演示数据甚至启发式，而约束可能编码安全性、公平性或其他特定于应用程序的要求。重要的是，基线策略对于手头的任务可能不是最优的，并且不能保证满足指定的约束。因此，关键挑战在于有效地利用基线策略来加快学习速度，同时仍确保最大限度地违反约束。为了调和这些潜在的竞争方面，提出了一种迭代策略优化算法，该算法在最大化任务的预期回报之间交替，最小化与基线策略的距离，并将策略投影到满足约束的集合上。从理论上分析了算法的收敛性并提供了有限样本保证。在对五个不同控制任务的实证实验中，本文的算法始终优于几种最先进的方法，实现了 10 倍的约束违规和 40% 的平均奖励。

论文链接：https://arxiv.org/pdf/2006.11645.pdf

标题：Ensemble Bootstrapping for Q-Learning(集成自举的强化学习)了解详情

简介：Q学习（QL）是一种常见的强化学习算法，由于最佳Bellman算子中的最大化项而遭受过高估计偏差。这种偏见可能导致次优行为。Double-Q学习通过利用两个估计量来解决此问题，但会导致低估偏差。与Q学习中的高估类似，在某些情况下，低估偏差可能会降低性能。本文引入了一种新的减少偏倚的算法，称为Ensemble Bootstrapped Q-Learning（EBQL），这是Double-Q-learning对集合的自然扩展。在理论上和经验上都对提出的方法进行了分析。从理论上讲，证明当估计一组独立随机变量的最大平均值时，类似EBQL的更新产生较低的MSE。根据经验，显示存在一些域，在这些域中，高估和低估都会导致次优性能。最后，展示了EBQL的RL深度RL变体优于其他ATARI游戏的深度QL算法的优越性能。

论文链接：https://arxiv.org/pdf/2103.00445.pdf

标题：Revisiting Rainbow: Promoting more insightful and inclusive deep reinforcement learning research(重温彩虹算法：促进更具洞察力和包容性的深度强化学习研究)了解详情

简介：自从DQN引入以来，绝大多数强化学习研究都集中在使用深度神经网络作为函数逼近器的强化学习上。通常会在现已成为标准的一组环境中评估新方法，例如Atari 2600游戏。虽然这些基准有助于标准化评估，但不幸的是，它们的计算成本会扩大具有充足计算资源访问权限的人和没有足够访问计算资源的人之间的差距。在这项工作中，尽管社区强调大型环境，但传统的小型环境仍然可以产生有价值的科学见解，并且可以帮助减少贫困社区的进入障碍。本文凭经验重新审视了介绍 Rainbow 算法的论文（Hessel 等人，2018 年），并对 Rainbow 使用的算法提出了一些新见解。

论文链接：https://arxiv.org/pdf/2011.14826.pdf

标题：First-Order Methods for Wasserstein Distributionally Robust MDPs Wasserstein (分布鲁棒 MDP 的一阶方法)了解详情

简介：众所周知，马尔可夫决策过程 (MDP) 对参数规范很敏感。分布鲁棒 MDP 通过允许模糊集来缓解这个问题，这些模糊集给出了一组可能的参数集分布。目标是根据最坏情况的参数分布找到最优策略。本文提出了一个用于解决分布式鲁棒 MDP 的一阶方法框架，并针对几种类型的Wasserstein 歧义集对其进行实例化。通过开发高效的近端更新，本文的算法实现了特定表示的收敛速度（此比率根据 Wasserstein 设置略有不同）本文算法对支持名义分布的核N，状态S和动作A的依赖性明显优于现有方法。数值实验表明，本文的算法在多个领域中比最先进的方法更具可扩展性。

论文链接：https://arxiv.org/pdf/2009.06790.pdf

标题：REPAINT: Knowledge Transfer in Deep Reinforcement Learning (REPAINT:深度强化学习中的知识转移)

了解详情

简介：通过利用先前学习的任务来加速复杂任务的学习过程一直是强化学习中最具挑战性的问题之一，尤其是当源任务和目标任务之间的相似性较低时。本文针对深度强化学习中的知识转移问题，提出了表示与实例转移(REPAINT)算法。REPAINT 不仅在策略学习中转移了预先训练的教师策略的表示，而且还使用基于优势的经验选择方法来转移在非策略学习中按照教师政策收集的有用样本。本文在几个基准任务上的实验结果表明，在任务相似的一般情况下，REPAINT 显著减少了总训练时间。尤其是当源任务与目标任务不同或子任务不同时，REPAINT 在训练时间减少和返回分数的渐近表现方面都优于其他基线。

论文链接：http://proceedings.mlr.press/v139/tao21a/tao21a.pdf

新工具

基于离线偏好的学徒学习了解详情

简介：本文研究了如何使用先前（可能是随机的）经验的离线数据集来解决自主系统在努力向人类学习、适应和协作时面临的两个挑战：（1）识别人类的意图和（2）安全地优化自治系统的行为以实现这种推断的意图。首先，本文使用离线数据集通过基于池的主动偏好学习有效地推断人类的奖励函数。其次，鉴于这个学习奖励函数，本文执行离线强化学习根据推断的人类意图优化策略。至关重要的是，提出的方法不需要实际物理部署或用于奖励学习或策略优化步骤的准确模拟器，从而实现安全高效的学徒学习。在现有离线 RL 基准的子集上识别和评估了该方法，这些基准非常适合离线奖励学习，并评估了这些基准的扩展，这些基准允许更多开放式行为。实验表明离线离线基于偏好的奖励学习和离线强化学习能够实现高效、高性能的策略，同时只需要少量的偏好查询。

视频地址：

https://sites.google.com/view/offline-prefs

论文链接：

https://arxiv.org/pdf/2107.09251.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

最长回文子串-leetCode-005
针对这个问题，共有四种解法，分别是暴力法，中心拓展法，动态规划，Manacher算法解法一：暴力法思路：枚举所有可能的子串，然后判断每个子串是否是回文串，最后找出最长的回文子串。classSolution{publicStringlongestPalindrome(Strings){intn=s.length();if(n==0){return"";}StringmaxPalindrome=s.s
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
[贪心算法]BM96 主持人调度（二） lanbing 多语言LeeCode的题解贪心算法算法
一、题目牛客题目链接：主持人调度（二）_牛客题霸_牛客网题目描述：有n个活动即将举办，每个活动都有开始时间与活动的结束时间，第i个活动的开始时间是startistart_istarti，第i个活动的结束时间是endiend_iendi,举办某个活动就需要为该活动准备一个活动主持人。一位活动主持人在同一时间只能参与一个活动。并且活动主持人需要全程参与活动，换句话说，一个主持人参与了第i个活动，那么该
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
算法理论知识 Victor Zhong AI 框架算法
算法理论知识排序二分查找冒泡排序插入排序选择排序快速排序堆排序希尔排序归并排序基数排序动态规划排序二分查找start=0end=len(list)mid=(start+end)//2冒泡排序每次都是相邻元素两两比较并交换位置。插入排序就好比扑克牌（分左边排好序，右边待排序），每次都是从右边拿一张牌去左边排好序的序列中找插入的位置。选择排序从后面找最小的和前面那个元素进行交换快速排序从中找一个元素作
时间复杂度高斯林.神犇数据结构
一、算法的目的：解决一个问题，所需执行代码的效率时间评价法：有很大缺陷，由于硬件CPU结构不同导致时间绝对差异性太大（有可能CPU好一点运行速度块，但算法可能很烂）纯时间法不行，后来人们提出：二、数据增长性来评价耗时间增长性和耗空间增长性比如当我们数据增长十倍，所耗空间或者所耗时间是否增长十倍，在此基础上提出两个概念时间复杂度空间复杂度三、那怎么计算时间复杂度呢1.找核心语句2.看核心语句执行的频
【数据结构】排序算法：归并与堆 nanguochenchuan 数据结构排序算法数据结构算法
归并排序：分治策略的经典实现算法原理归并排序采用分治法策略，包含三个关键步骤：分解：递归地将数组分成两半解决：对子数组进行排序合并：将两个有序子数组合并为一个有序数组C语言实现#include#include//合并两个有序子数组voidmerge(intarr[],intleft,intmid,intright){inti,j,k;intn1=mid-left+1;intn2=right-mid
多目标路径规划：IMOMD-RRT*算法详解
多目标路径规划项目结构与关键算法解析一、项目版本概览该路径规划项目共包含两个主要版本：两个版本的共同点：配置文件路径：config/algorithm_config.yamlsystem:使用不同算法的编号destination:定义目标点的ID列表map:指定使用的地图文件pseudo:1:仅规划起点到终点0:多目标路径规划两个版本的区别：✅新版特点：路径生成由src/main可执行文件完成；支
React 核心原理与Fiber架构旺代 react.js
目录一、虚拟DOM二、Diffing算法三、Fiber架构四、渲染流程1.Render阶段（可中断异步过程）2.Commit阶段（同步不可中断）五、时间切片（TimeSlicing）六、核心流程步骤总结1.状态更新触发2.Render阶段（异步可中断，构建Fiber树）3.Commit阶段（同步不可中断，更新真实DOM）4.双缓存机制切换5.调度系统核心支撑七、组件触发渲染的时机八、Hooks顶层
大图处理优化：低分加载、Lazy Decode 与缩放算法加速实践观熵影像技术全景图谱：架构调优与实战算法影像 Camera
大图处理优化：低分加载、LazyDecode与缩放算法加速实践关键词：大图加载优化、LazyDecode、Region解码、缩放算法、Bitmap分块、滑动加载、内存控制、图像性能优化摘要：在相册、图片浏览器、拍摄预览和编辑器中，用户经常会处理分辨率高达上千万像素的照片（如48MP、64MP、RAW文件等），这类“大图”在加载、缩放、平移过程中容易造成内存抖动、页面卡顿甚至OOM崩溃。本篇文章将围
Open3D 点到面的ICP配准算法 AtlasCloud python点云数据处理算法人工智能 python 矩阵 numpy
目录一、算法原理1、算法概述2、点到平面ICP精配准3、参考文献二、主要函数三、代码实现四、结果展示1、初始位置2、配准结果一、算法原理1、算法概述点到平面度量通常使用标准非线性最小二乘法来求解，例如Levenberg-Marquardt。点到平面ICP算法的每次迭代通常比点到点算法慢，但收敛速度明显更快。两个点云之间的相对旋转小于30°，在旋转矩阵中用θ替换sinθ，用1替换cosθ实现用线
【大厂机试题+多种解法+算法可视化笔记】欢乐的周末 xuwzen 编码训练算法
题目小华和小为是很要好的朋友，他们约定周末一起吃饭。通过手机交流，他们在地图上选择了多个聚餐地点（由于自然地形等原因，部分聚餐地点不可达），求小华和小为都能到达的聚餐地点有多少个？输入描述第一行输入m和n，m代表地图的长度，n代表地图的宽度。第二行开始具体输入地图信息，地图信息包含：0为通畅的道路1为障碍物（且仅1为障碍物）2为小华或者小为，地图中必定有且仅有2个（非障碍物）3为被选中的聚餐地点（
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
动态规划、背包问题入门 2303_Alpha 动态规划代理模式算法笔记 c语言
目录1、动态规划定义2、数塔问题题目描述：思路：代码实现：3、最长有序子序列问题描述：代码实现：动态规划基本思想特点4、背包问题①01背包问题空间复杂度优化②完全背包③多重背包二进制优化④二维费用背包1、动态规划定义动态规划是一种用于解决优化问题的算法策略，它的核心是把一个复杂的问题分解为一系列相互关联的子问题，并通过求解子问题的最优解来构建原问题的最优解。它将一个问题分解为若干个子问题，然后从最
SpinLock (TTAS) C-A-S 自旋锁实现原理 liulilittle Markdown Extension C/C++c语言 redis c++开发语言同步锁 cas
SpinLock(TTAS)C-A-S自旋锁实现原理引用SpinLock.hSpinLock.cpp⚙️核心结构解析TTASLock工作原理Test-and-Test-and-Set(TTAS)算法流程：初次测试：快速检查锁状态二次测试：执行原子CAS操作自旋循环：失败后重试线程内存位置（atomic_）读取锁状态CAS(0→1)获取锁成功返回失败/继续自旋alt[CAS成功][CAS失败]等待/
无人机一机多控技术要点难点云卓SKYDROID 无人机人工智能高科技云卓科技科普
一、运行方式1.核心架构：集中式控制(最常见)：遥控器作为主控端，通过无线通信模块与多架无人机建立连接。遥控器运行核心控制逻辑，负责：接收操作员的输入指令（如整体移动、队形变换）。根据预设的编队逻辑或算法，将整体指令解算为每架无人机的个体指令（目标位置、速度、航向等）。通过通信链路同时或分时向所有或指定的无人机发送个体指令。接收所有无人机的状态信息（位置、速度、姿态、电池、传感器数据等），进行监控
JVM垃圾回收算法全解析：从基础到GC调优实战 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 jvm 算法 ai
JVM垃圾回收算法全解析：从基础到GC调优实战关键词：JVM、垃圾回收算法、基础原理、GC调优、实战应用摘要：本文将全面深入地解析JVM垃圾回收算法，从最基础的概念开始讲起，帮助读者理解垃圾回收的本质和原理。接着详细介绍各种常见的垃圾回收算法，并用通俗易懂的方式解释其工作机制。之后通过实战案例展示如何进行GC调优，让读者不仅了解理论知识，还能掌握实际应用技能。最后对垃圾回收的未来发展趋势进行探讨，
力扣题解： 55. 跳跃游戏胡矣算法 LeetCode 算法力扣题解 leetcode题解贪心算法
题目给定一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标。示例1：输入：nums=[2,3,1,1,4]输出：true解释：可以先跳1步，从下标0到达下标1,然后再从下标1跳3步到达最后一个下标。解题思路使用贪心算法从第一个位置开始，找到可以跳跃到的最远位置在这个范围内查找下一次可以跳跃的最远位置重复以上动作，直
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
力扣网编程55题：跳跃游戏之贪心算法魏劭逻辑编程题算法 leetcode
一.简介本文记录力扣网上涉及数组方面的编程题：跳跃游戏。二.力扣网编程55题：跳跃游戏给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标，如果可以，返回true；否则，返回false。示例1：输入：nums=[2,3,1,1,4]输出：true解释：可以先跳1步，从下标0到达下标1,然后再从下标1跳3步到达最后
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
力扣网编程121题：买卖股票的最佳时机之动态规划（简单）魏劭逻辑编程题 C语言 leetcode 动态规划算法
一.简介前一篇文章使用贪心算法实现了力扣网上121题：买卖股票的最佳时机，文章如下：力扣网编程189题：买卖股票的最佳时机之贪心算法（简单）-CSDN博客本文使用动态规划实现该题目。二.力扣网编程189题：买卖股票的最佳时机之动态规划（简单）给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,强化学习)