智源社区

《强化学习周刊》第69期：ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

No.69

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第69期《强化学习周刊》以飨诸位。

本周论文推荐板块为读者梳理了ICLR 2023的另外10篇强化学习相关研究论文，其中涉及到扩散策略作为离线强化学习的表达策略类、无熵的最大熵RL、通过 ResAct 加强在顺序推荐中的长期参与、强化学习的谱分解表示等；科研资讯为读者分享来自麻省理工的实现自动调整内在奖励的强化学习，麻省理工学院研究团队提出了一种有原则的约束策略优化程序，可以自动调整内在奖励的重要性：它在不需要探索时抑制内在奖励，并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

第十一届学习表征国际会议(ICLR2023)于2023年5月1日星期一至5日星期五在卢旺达的首都基加利举行。

标题：Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning（德克萨斯大学奥斯汀分校: Zhendong Wang|扩散策略作为离线强化学习的表达策略类）了解详情

简介：离线强化学习 (RL) 旨在使用先前收集的静态数据集学习最佳策略，是 RL 的重要范例。由于分布外动作的函数逼近误差，标准 RL 方法通常在此任务上表现不佳。虽然已经提出了多种正则化方法来缓解这个问题，但它们通常受到表达能力有限的策略类的限制，有时会导致基本上不是最优的解决方案。本文提出了扩散-QL，它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数，并在条件扩散模型的训练损失中添加了一个最大化动作值的项，这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于扩散-QL 的出色性能。文中在一个带有多模态行为策略的简单 2D bandit 示例中说明了此文方法和先前的工作。

论文链接：https://arxiv.org/pdf/2208.06193.pdf

标题：Extreme Q-Learning: MaxEnt RL without Entropy（极限Q-Learning：无熵的最大熵RL）了解详情

简介：现代深度强化学习(RL)算法需要对最大 Q 值进行估计，这在具有无限可能行为的连续域中是很难计算的。本文引入了一个新的更新规则的在线和离线，直接模型的最大值使用极值理论(EVT)的启发经济学。通过这样做，可避免使用分布外操作来计算 Q 值，这通常是一个实质性的误差来源。本文的主要见解是引入一个目标，直接估计最大熵(MaxEnt) RL 设置下的最优软值函数(LogSumExp) ，而不需要从策略中抽样。使用 EVT，得到极限Q-Learning框架，并因此在线和第一次离线最大熵 Q-Learning 算法，这些算法不明确要求访问策略或其熵。最后，本文的方法获得了很好的结果。

论文链接：https://openreview.net/pdf?id=SJ0Lde3tRL

标题：ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor（南洋理工大学&快手科技: Wanqi Xue|ResAct：通过 ResAct 加强在顺序推荐中的长期参与）了解详情

简介：强化学习（RL）被广泛认为是优化长期参与顺序推荐的有前途的框架。然而，由于昂贵的在线交互，RL 算法在优化长期参与时很难执行状态-动作值估计、探索和特征提取。本文提出了 ResAct，它寻求一种接近但优于在线服务的策略。能够在学习到的策略附近收集足够的数据，从而可以正确估计状态-动作值，而无需进行在线探索。由于策略空间巨大，很难直接优化该策略。相反，ResAct 通过首先重建在线行为然后改进它来解决它。本文的主要贡献有四方面。首先，本文设计了一个生成模型，该模型通过对多个动作估计器进行采样来重建在线服务策略的行为。其次，本文设计了一种有效的学习范式来训练可以输出残差以改进动作的残差参与者。第三，本文使用两个信息理论正则化器促进特征的提取，以确认特征的表达性和简洁性。第四，广泛的实验证明本文的方法在各种长期参与优化任务中显著优于最先进的基线。

论文链接：https://arxiv.org/pdf/2206.02620.pdf

标题：The Role of Coverage in Online Reinforcement Learning（Tengyang Xie|覆盖在在线强化学习中的作用）了解详情

简介：覆盖条件——断言数据记录分布充分覆盖状态空间——在确定离线强化学习的样本复杂性方面发挥着重要作用。虽然这些条件乍一看似乎与在线强化学习无关，但本文通过展示建立了新的联系，即仅存在具有良好覆盖率的数据分布就可以实现样本高效的在线 RL。具体来说，文中展示了可覆盖性——即满足称为集中性的普遍覆盖条件的数据分布的存在——可以被视为底层 MDP 的结构属性，并且可以被标准算法用于样本有效探索，即使智能体不知道所述分布。本文通过证明几个较弱的覆盖概念来补充这一结果，尽管对于离线 RL 来说已经足够了，但对于在线 RL 来说是不够的。文中还表明，在线 RL 的现有复杂性度量未能最佳地捕捉可覆盖性，并提出了一种新的复杂性度量，即顺序外推系数，以提供统一的度量方法。

论文链接：https://arxiv.org/pdf/2210.04157.pdf

标题：Benchmarking Offline Reinforcement Learning on Real-Robot Hardware（在真实机器人硬件上进行离线强化学习的基准测试）了解详情

简介：从之前记录的数据中学习策略是现实世界机器人任务的一个有希望的方向，因为在线学习往往是不可行的。尤其是灵巧的操纵，在一般情况下仍然是一个开放的问题。然而，离线强化学习与大型多样化数据集的结合，有可能导致在这个具有挑战性的领域取得突破，就像近年来在监督学习中取得的快速进展一样。为了协调研究界解决这个问题的努力，本文提出了一个基准，包括：i）从一个灵巧的操纵平台上获得的关于两个任务的离线学习的大量数据，这些数据是通过在模拟中训练的有能力的RL智能体获得的；ii）在一个真实世界的机器人系统和模拟中执行学习的策略的选项，以便进行有效的调试。本文在数据集上评估了著名的开源离线强化学习算法，并为真实系统上的离线强化学习提供了可重复的实验设置。

论文链接：https://openreview.net/pdf?id=3k5CUGDLNdd

标题：Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation（通过不确定性和时间距离意识到的课程目标生成进行结果导向的强化学习）了解详情

简介：目前的强化学习（RL）在解决一个具有挑战性的探索问题时经常受到影响，因为在这个问题上很少能看到期望的结果或高回报。即使课程RL，一个通过提出一系列代用任务来解决复杂任务的框架，显示出合理的结果，但由于缺乏一种机制，在没有任何先验领域知识的情况下获得对期望结果状态的校准指导，大多数以前的工作在提出课程方面仍然存在困难。为了缓解这一问题，本文提出了一种不确定性和时间距离感知的课程目标生成方法，该方法通过解决一个双点匹配问题来实现结果导向 RL。它不仅可以为课程提供精准的指导，使其达到预期的结果状态，而且与以前的课程RL方法相比，它还带来了更好的采样效率和几何诊断的课程目标建议能力。本文证明此算法在各种具有挑战性的导航任务和机器人操作任务中以定量和定性的方式明显优于这些先前的方法。

论文链接：https://openreview.net/pdf?id=v69itrHLEu

标题：Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization（强化学习是否适用于自然语言处理？：自然语言策略优化的基准、基线和构建块）了解详情

简介：本文解决了将预先训练的大型语言模型（LMs）与人类偏好相匹配的问题。如果将文本生成视为一个顺序决策问题，强化学习（RL）似乎是一个自然的概念框架。然而，将RL用于基于LM的生成面临着经验挑战，包括由于组合动作空间而导致的训练不稳定性，以及缺少为LM对齐定制的开源库和基准。因此，研究界提出了一个问题：RL是否是NLP的一个实用范式？为了帮助回答这个问题，作者首先引入了一个开源模块库RL4LMs（语言模型强化学习），用于使用RL优化语言生成器。接下来，作者提出了GRUE（通用强化语言理解评估）基准，这是一组6个语言生成任务，它们不受目标字符串的监督，而是由捕获人类偏好的自动度量的奖励函数来监督。最后，作者介绍了一种RL算法NLPO（自然语言策略优化），该算法学习如何有效地减少语言生成中的组合动作空间。

论文链接：https://openreview.net/pdf?id=8aHzds2uUyB

标题：Spectral Decomposition Representation for Reinforcement Learning（谷歌研究院: Tongzheng Ren|强化学习的谱分解表示）了解详情

简介：表示学习通常通过管理维数灾难在强化学习中发挥关键作用。一类具有代表性的算法利用随机过渡动力学的谱分解来构建在理想化环境中具有强大理论特性的表示。然而，当前的谱方法的适用性有限，因为它们是为仅状态聚合而构建的，并且是从依赖于策略的转换内核中派生出来的，而没有考虑探索问题。为了解决这些问题，本文提出了一种替代的光谱方法，即光谱分解表示 (SPEDER)，它从动态中提取状态-动作抽象，而不会引起对数据收集策略的虚假依赖，同时还平衡了学习过程中的探索与利用权衡。理论分析确定了所提出算法在在线和离线设置下的采样效率。此外，一项实验研究表明，在多个基准测试中，性能优于当前最先进的算法。

论文链接：https://arxiv.org/pdf/2208.09515.pdf

标题：Certifiably Robust Policy Learning against Adversarial Communication in Multi-agent Systems（马里兰大学: Yanchao Sun|多智能体系统中对抗性通信的可证明鲁棒策略学习）了解详情

简介：在多智能体强化学习（MARL）问题中，通信对于智能体共享信息和做出正确决策至关重要。然而，基于通信的策略的安全性成为一个尚未充分研究的严重问题。具体来说，如果通信消息被恶意攻击者操纵，依赖不可信通信的智能体可能会采取不安全的行为，从而导致灾难性后果。因此，确保智能体不会被错误的通信误导，同时仍能从良性通信中受益至关重要。本文考虑了一个具有N个智能体的环境，其中攻击者可以任意更改从任何 C<(N-1)/2 个智能体到受害者智能体的通信。对于这种强威胁模型，作者通过构建聚合多个随机消融的消息集的消息集成策略来提出可验证的防御。理论分析表明，无论攻击算法如何，这种消息集成策略都可以利用良性通信，同时对对抗性通信具有可证明的鲁棒性。在多个环境中进行的实验证实，本文的防御显着提高了经过训练的策略针对各种类型攻击的稳健性。

论文链接：https://arxiv.org/pdf/2206.10158.pdf

标题：Pink Noise Is All You Need: Colored Noise Exploration in Deep Reinforcement Learning（粉红噪声就是你所需要的：深度强化学习中的有色噪声探索）了解详情

简介：在具有连续动作空间的非策略深度强化学习中，探索通常是通过在动作选择过程中注入动作噪声来实现的。基于随机策略的流行算法（例如 SAC 或 MPO）通过从不相关的高斯分布中采样动作来注入白噪声。然而，在许多任务中，白噪声不能提供足够的探索，而是使用时间相关的噪声。一个常见的选择是 Ornstein-Uhlenbeck (OU) 噪声，它与布朗运动（红噪声）密切相关。红噪声和白噪声都属于广义的有色噪声家族。在这项工作中，作者对 MPO 和 SAC 进行了全面的实验评估，以探索其他颜色噪声作为动作噪声的有效性。作者发现介于白噪声和红噪声之间的粉红噪声在广泛的环境中明显优于白噪声、OU 噪声和其他替代方案。因此，本文建议将其作为连续控制中动作噪声的默认选择。

论文链接：https://openreview.net/pdf?id=hQ9V5QN27eS

科研资讯

标题：麻省理工实现自动调整内在奖励的强化学习了解详情

简介：最先进的强化学习 (RL) 算法通常使用随机抽样进行探索，但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。为了应对探索的挑战，先前的工作通过探索奖励来激励智能体访问新状态。与仅使用任务奖励训练的智能体相比，此类方法可以在艰苦的探索任务上产生出色的结果，但可能会受到内在奖励偏差的影响并且表现不佳。当智能体寻求内在奖励并执行不必要的探索时，即使有足够的任务奖励可用，这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序，可以自动调整内在奖励的重要性：它在不需要探索时抑制内在奖励，并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

论文链接：https://arxiv.org/pdf/2211.07627.pdf

更多阅读

《强化学习周刊》第68期：ICLR2023强化学习论文、谷歌乒乓球机器人、订阅赠书《Easy RL强化学习教程》
《强化学习周刊》第67期：ICLR2022强化学习相关论文推荐、订阅赠书《EasyRL强化学习案例与实践》

设计模式——代理模式（Proxy Pattern） Lucifer Zhao 设计模式代理模式
定义：代理模式是指为其他对象提供一个代理，控制对这个对象的访问，保护目标对象，增强对象功能。代理对象在目标对象和客户端之间起中介作用。属于结构型设计模式。生活中的代理模式：房产中介、快递小哥、黄牛党。适应场景：当需要保护目标对象，增强目标对象功能时需要用到代理模式。代理模式的优点：代理模式能将代理对象与真实被调用目标对象分离一定程度上降低了系统的耦合程度，易于扩展代理可以起到保护目标对象，增强目标
设计模式（17）——中介者模式迷惘小书童设计模式中介者模式设计模式
中介者模式（MediatorPattern）是用来降低多个对象和类之间的通信复杂性。这种模式提供了一个中介类，该类通常处理不同类之间的通信，并支持松耦合，使代码易于维护。中介者模式属于行为型模式。前段时间要租房子，不可避免的要跟中介打交道，不用中介的话，就要直接找一房东，首先不好找房东，一个房东就一个房子，这个不满意就要找下一个房东，麻烦，而且房东找的也不容易，不如全部委托给房产中介，付点中介费省
2013年EI 新目录中新增的期刊 h_liuage 投稿期刊论文投稿
**【转载】2013年EI新目录中新增的期刊**斜体样式3DResearch2092673020926731ACSSustainableChemistryandEngineering21680485ActaInformatica0001590314320525AdvancesinOpticsandPhotonics19438206AdvancesinRadioScience168499651684
python 获取节假日 AI算法网奇 python宝典
www.easybots.cn是不准的，不能用，比如20190913，不能判断节假日#-*-coding:utf-8-*-importjsonimporturllib.requestimporttimeimportdatetimedefa1(date_str):server_url="http://api.goseek.cn/Tools/holiday?date="#server_url="htt
点云从入门到精通技术详解100篇-点云滤波算法及单木信息提取格图素书人工智能
目录知识储备点云滤波算法及单木信息提取点云条件滤波单木信息提取1.点云预处理2.点云密度计算3.密度阈值筛选4.骨架提取5.骨架细化优化方向前言国内外研究现状激光雷达研究现状点云数据的滤波算法研究现状单木分割应用现状LiDAR工作原理与点云数据的组成2.1LiDAR系统的内部结构2.1.1激光测距单元2.1.2光学机械扫描单元2.1.3惯性导航系统INS2.1.4动态差分GPS2.2定位原理2.3
模型性能评估实战：解密大模型准确率与召回率的计算逻辑与业务权衡
在AI项目落地过程中，模型性能评估是关键一步。想必大家都听过这样的案例：某医疗AI项目中，一个在测试集上准确率达到98%的肺癌筛查模型，实际部署后却遗漏了20%的早期癌变患者。无独有偶，某银行风控系统中，一个标榜着99.5%“高准确率”的模型，实际使用中却放过了90%的信用卡欺诈行为。这些案例都给我们敲响了警钟，模型性能评估中存在不少被忽视的致命盲区，今天就让我们一同深入探寻这其中的奥秘。第一部分
Reactor框架介绍，和使用示例
Reactor框架介绍Reactor是一个基于JVM的非阻塞响应式编程框架，遵循ReactiveStreams规范，专为构建高并发、低延迟的异步应用设计[2][4]。其核心特点包括：异步流处理提供Flux（处理0或N个元素）和Mono（处理0或1个元素）两个核心抽象，支持链式操作（如map、filter、flatMap等）实现数据的异步处理[5][4]。背压支持通过ReactiveStreams协
React 元素渲染小晗同学 React reactjs props 组件化
React学习：元素渲染元素是构成React应用的最小砖块，它描述了你在屏幕上想看到的内容。constelement=Hello,world;与浏览器的DOM元素不同，React元素是创建开销极小的普通对象。ReactDOM会负责更新DOM来与React元素保持一致。React元素是不可变对象。一旦被创建，你就无法更改它的子元素或者属性。但是将元素或属性封装到有状态组件中，就可以实现更新渲染。Re
Solidity学习 - ABI 应用二进制接口本郡主是喵 #Solidity 学习区块链 Solidity
文章目录一、ABI基础概念1.ABI与API的区别2.ABI的核心作用二、ABI接口描述1.编译后的产物2.ABIJSON格式示例3.ABIJSON关键字段说明三、ABI编码1.编码示例2.编码数据的组成3.Solidity中的编码函数四、ABI解码1.解码的基本概念2.事件日志的解码五、ABI编解码可视化工具一、ABI基础概念1.ABI与API的区别API（应用程序接口）：是两个软件之间进行通信
Error in created hook: “TypeError: Cannot read properties of undefined (reading ‘style‘)“ 本郡主是喵 #JS相关 vue.js javascript 前端
问题解决这个错误通常在Vue组件的created钩子函数中发生，它表示在该钩子函数中尝试读取一个未定义的对象的style属性。造成这个错误的原因可能是：你在`created`钩子函数中引用了一个未定义的数据属性或计算属性。在`created`钩子函数中尝试访问组件的DOM元素，但DOM元素尚未完全加载或渲染。为了解决这个问题，你可以按照以下步骤进行排查：检查在created钩子函数中访问的数据属性
Solidity学习 - 错误处理本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言EVM错误处理机制EVM错误处理的核心特性程序中的错误处理错误抛出方法require()函数require()触发异常的场景关键特性assert()函数assert()触发异常的场景关键特性require()vsassert()：选择指南revert()函数关键特性异常捕获：try/catch外部调用异常捕获高级异常捕获注意事项前言在Solidity智能合约开发中，错误处理是保障合约安
Solidity学习 - 断言失败本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言一、原理剖析（一）断言的作用（二）断言失败的影响（三）与require的区别二、案例分析（一）某去中心化金融（DeFi）借贷合约案例（二）某加密货币交易平台智能合约案例三、解决办法（一）正确区分assert和require的使用场景前言在Solidity智能合约开发领域，确保代码的稳健性和安全性是至关重要的。其中，断言失败漏洞是一个需要开发者高度警惕的问题，它可能会对智能合约的正常运行
【pdf】Java代码生成PDF Leslie_Lei #pdf pdf java
目录依赖创建单元格表格数据行辅助添加方法创建表头单元格创建下划线创建带下划线的文字创建PDF依赖com.itextpdfitextpdf5.4.2org.apache.pdfboxpdfbox2.0.13com.itextpdfitext-asian5.2.0创建单元格/***创建单元格**@paramtext显示值*@paramfont字体*@paramhorizontalAlign值水平显示位
Golang动态路由实现：灵活处理URL路径 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 开发语言后端 ai
Golang动态路由实现：灵活处理URL路径关键词：Golang动态路由、URL路径处理、参数化路由、通配符匹配、路由算法、HTTP框架、RESTful设计摘要：本文深入探讨Golang中动态路由的实现原理与实践方法，从基础概念到复杂场景逐步解析。通过对比标准库与第三方框架的路由机制，详细讲解参数捕获、通配符匹配、正则表达式路由等核心技术。结合具体代码示例演示如何构建高性能路由系统，涵盖路由匹配算
网络安全相关专业就业，零基础入门到精通，看这一篇分析就够了
对于就业环境来说，都说不好，但我分析下来，其实网络安全专业还是有很多选择或出路的。有不少部门，可能很多人没有之前都没有听说过，平时也没有关注这块的招聘或者考编信息。今天，统一整理一下，方便大家获取。1、政府部门与事业单位在政府部门与事业单位中，网络安全专业毕业生有多个选择：公安局、网信办等部门：虽然工作压力较大，但待遇优厚且有编制保障。省直、市直单位信息中心：性价比高且有编制保障，是一个稳定且不错
动态规划之01背包问题蓝澈1121 数据结构与算法动态规划算法 java
动态规划算法动态规划算法介绍动态规划(DynamicProgramming)算法的核心思想是：将大问题划分为小问题进行解决，从而一步步获取最优解的处理算法动态规划算法与分治法类似，其基本思想也是将待解决问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解与分治法不同的是，适合于动态规划求解的问题。经分解得到子问题往往不是互相独立的。（即下一个子阶段的求解是建立在上一个子阶段的基
ADIOS2 介绍与使用指南东北豆子哥 HPC/MPI HPC
文章目录ADIOS2介绍与使用指南什么是ADIOS2?ADIOS2的主要特点ADIOS2核心概念ADIOS2安装Linux系统安装Windows安装ADIOS2基本使用C++示例Python示例ADIOS2高级特性并行I/O流模式ADIOS2引擎类型性能优化建议总结ADIOS2介绍与使用指南什么是ADIOS2?ADIOS2(AdaptableInputOutputSystemversion2)是一
《网络攻防技术》《数据分析与挖掘》《网络体系结构与安全防护》这三个研究领域就业如何？扣棣编程其他网络数据分析安全
这几个研究领域都是当前信息技术领域的热点方向，就业前景总体来说都非常不错，但各有侧重和特点。我来帮你详细分析一下：1.网络攻防技术就业前景：非常火热且持续增长。核心方向：渗透测试、漏洞挖掘与分析、恶意软件分析、入侵检测/防御、应急响应、威胁情报、安全审计、红蓝对抗等。市场需求：极高。数字化转型深入、网络攻击日益频繁和复杂（勒索软件、APT攻击、供应链攻击等）、数据安全与隐私保护法规（如GDPR、中
Solidity学习 - 代理模式中的初始化漏洞本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言一、原理剖析（一）代理模式基础（二）初始化流程概述（三）初始化漏洞成因二、案例分析（一）某DeFi借贷平台攻击事件（二）某NFT市场平台漏洞事件三、解决办法（一）严格权限控制（二）防止重入机制前言在Solidity智能合约开发中，代理模式因其强大的可升级性与灵活性，成为了众多项目的首选架构方案。通过将合约的逻辑实现与存储分离，开发者能够在不改变合约地址（从而不影响用户交互）的前提下，对
SqlServer基础学习笔记 @半夏微凉科技技术拓展 #sqlserver sqlserver 数据库学习笔记 sqlServer学习笔记
SqlServer基础学习笔记介绍了SQLServer数据库管理系统的基础知识，包括数据库的创建、表的设计、SQL查询语句、数据类型、索引、以及常见的管理任务等内容，适合初学者入门学习。第一章：SQLServer简介1.1SQLServer概述SQLServer是由Microsoft公司开发的关系型数据库管理系统，用于存储和管理大量数据。它提供了可靠性、安全性和高性能的数据库解决方案，广泛应用于企
maven项目导入本地依赖jar包 Focusty maven jar
项目场景：maven项目导入本地依赖jar包问题描述在开发过程中已有的maven库没有需要的依赖，在链接:https://mvnrepository.com/中下载对应依赖的jar包到本地后进行导入。解决方案：1、确定电脑是否配置maven环境变量，cmd进入命令行窗口，使用命令"mvn-v"查看是否正确返回maven的版本信息。2、如果返回了maven的版本信息说明maven的环境变量配置好了，
Maven 如何引入外部依赖jar包
1、在src目录下创建libs目录，并将需要引入的jar包放到lib目录下2、然后添加以下依赖到pom.xml文件中com.cryptoFrontcryptoFrontsystem1.0.0${project.basedir}/libs/cryptofront-2.1.8.jar3、点击idea中项目结构3、选择库，点击新建项目库，找到libs位置添加并应用保存4、此时看到这里就可以看出jar包就
核密度估计KDE和概率密度函数PDF（深入浅出）赵孝正深度学习数学基础 pdf KDE
目录1.和密度估计（KDE）核密度估计的基本原理核密度估计的公式核密度估计的应用Python中的KDE实现示例代码结果解释解释结果总结2.概率密度函数（PDF）概率密度函数（PDF）是怎么工作的：用图画来解释解释这个图：问题解答：总结3.核密度估计（KDE）和概率密度函数（PDF）之间的关系故事开始：第一种方法：概率密度函数（PDF）第二种方法：核密度估计（KDE）总结一下：问题解答：1.和密度估
npm-check-updates【实用教程】ncu 极速升级项目中全部依赖朝阳39 #node.js npm
安装npminstall-gnpm-check-updates查看可升级的依赖ncu更新package.json中的版本号ncu-u安装新版依赖npmi
MyBB免费论坛 v1.8.21：开源论坛搭建与管理车英赫
本文还有配套的精品资源，点击获取简介：MyBB免费论坛v1.8.21是一个流行的开源论坛软件，以其灵活性、易用性和功能丰富性著称。它由PHP语言编写，利用MySQL数据库存储数据，并提供了一个符合用户习惯的高效平台。MyBB具备标准的论坛布局和强大的功能特性，包括权限管理、插件系统、主题与模板定制、积分奖励系统、强大的搜索功能、邮件通知、报告系统和多语言支持。同时，MyBB注重安全性，修复了安全漏
l351墨水灯和缺纸灯闪烁_爱普生L351有墨水，可缺墨的灯一直闪，怎么解决？车英赫 l351墨水灯和缺纸灯闪烁
展开全部打印机l351墨水灯闪烁时,请检查墨仓4个颜色中的墨水量是否有低于20毫米的状态。1、如有请将低62616964757a686964616fe4b893e5b19e31333433623061于20毫米的墨仓中添加墨水到20毫米以上，此时墨水灯仍然会闪烁，是正常现象。这时红灯闪是无法消除的，可以继续打印没有任何影响。等红灯常亮的时候建议加满四色墨水，按维护键(圆圈里面一个倒三角的按键)复位
【爆款长文】RAG检索增强大模型的“记忆力”革命：Contextual Chunk Headers（CCH）实战全解析许泽宇的技术分享人工智能机器学习
大家好，我是你们的AI技术侃侃而谈小能手。今天我们来聊聊RAG（Retrieval-AugmentedGeneration）这个AI圈的“记忆力补脑丸”，以及它最近新晋的“脑白金”——ContextualChunkHeaders（CCH）。别眨眼，这可是让大模型“查资料”能力质变的秘密武器！一、RAG：让大模型不再“张口就胡说”先来个小科普。RAG是什么？简单说，就是给大模型加个“外挂”，让它在回
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
图像采集卡与视频采集卡的主要区别对比 qq_52609913 数码相机
图像采集卡和视频采集卡的核心区别在于它们的设计目标、处理对象和典型应用场景。尽管名称相似，且有时功能会有重叠（尤其是高端设备），但它们侧重点不同：以下是主要区别：1.处理对象与目标图像采集卡：主要目标是高速、高精度地捕获单帧或连续多帧静态图像。它关注的是单张图片的质量、细节、分辨率和精确性。常用于需要分析图像内容而非连续观看流畅视频流的场景。视频采集卡：主要目标是实时、连续地捕获动态视频流。它关注
使用UmiJS框架开发React 汇智知了堂前端理论知识 react java
1、什么是Umi.js?umi，中文可发音为乌米，是一个可插拔的企业级react应用框架。你可以将它简单的理解为一个专注性能的类next.js前端框架，并通过约定、自动生成和解析代码等方式来辅助开发，减少我们开发者的代码量。2、为什么使用Umi.js?我们做react开发的时候会不会遇到以下问题？：2.1项目做大的时候，开发调试的启动和热更新时间会变得很长。2.2大应用下，网站打开很慢，有没有办法
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

《强化学习周刊》第69期：ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

你可能感兴趣的:(《强化学习周刊》第69期：ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...)