孙敬博

强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

强化学习泛化性综述论文阅读

摘要
一、介绍
二、相关工作：强化学习子领域的survey
三、强化学习中的泛化的形式
- 3.1 监督学习中泛化性
- 3.2 强化学习泛化性背景
- 3.3 上下文马尔可夫决策过程
- 3.4 训练和测试上下文
- 3.6 应用实例
- 3.7 更可行泛化的其他假设
- 3.8 备注和讨论
4. 强化学习中的泛化基准
- 4.1 环境
- - 4.1.1 泛化环境的分类
  - 4.1.2 环境趋势
- 4.2 泛化评估协议
- 4.3 讨论
5. 强化学习中的泛化方法
- 5.1 增加训练集与测试集的相似性
- - 5.1.1 数据增强和域随机化

摘要

DRL泛化研究目的是将算法部署在新未知环境中仍然具有很好的效果，而不只是在训练环境有较好的效果。

泛化性的研究是在现实场景中实现DRL部署的重要环节。因为在现实世界中，环境将是多样的、动态的和不可预测的。

这篇文章的工作：1. 定义了强化学习泛化性的形式化定义。 2. 对现有的通用化基准及解决通用化问题的方法进行分类。3. 对该领域的现状进行批判性讨论和展望。

其他观点：1. 采用纯程序性内容生成方法进行基准设计不利于通用化的进展，建议快速在线适应和解决RL特定问题，作为未来通用化方法工作的一些领域。 2. 建议在未充分探索的问题设置中构建基准，例如离线RL泛化和奖励函数变化。

一、介绍

强化学习可应用于自动驾驶、算法控制、机器人等，但实现需要在真实环境中使用，而真实环境又是复杂变化的。因此，RL算法需要对环境的变化具有鲁棒性，并且在部署过程中能够转移和适应不可见的（但类似的）环境。
当前RL研究主要在Atari和MuJoCo等基准上进行，它们在完全相同的环境下评估政策，与现实场景不匹配（下图左栏）。这与监督学习完全不同，监督学习分为训练集与测试集属于不同分布。因此RL可能会严重过拟合，即使稍微调整环境算法也无法获得好的效果（如改变随机种子）。
研究侧重于生成其策略具有所需鲁棒性、传递和自适应特性的算法，挑战训练和测试将是相同的基本假设（下图中和右栏）。
本文研究范围：zero-shot策略转移问题。这要求将训练好的策略迁移到新的环境中不能进行额外的训练，因此域自适应和许多元RL方法的含义方法是不适用的。
文章结构：第2节简述相关工作；第3节介绍RL及泛化性背景；第4节描述RL中通用化的当前基准，同时讨论了环境（4.1）和评估协议（4.2）；第5节对工作产生方法进行了分类和描述，以解决普遍化问题；第6节对当前领域进行批判性讨论和展望；第7节总结了调查中的主要收获。
文章贡献：
（1）提出了一种形式主义和术语描述RL泛化性问题。
（2）提出了一个可用于测试泛化性的基准分类，讨论分为分类环境和评估协议。总结PCG方法的缺点：完全PCG环境限制了在该环境下进行的研究的精度，建议未来的环境应使用PCG和可控变化因素的组合。
（3）建议对现有方法进行分类，以解决各种泛化问题。进一步研究途径，包括快速在线适应、解决RL特定的泛化问题、新颖的架构、基于模型的RL和环境生成。
（4）给出展望，建立基准将使离线RL通用化和奖励功能变化取得进展。指出了几个值得探索的不同设置和评估指标：调查上下文效率和进行连续RL设置都是未来工作的必要领域。

（图中可见，经典RL侧重于训练和测试相同的环境（单例环境，第一列），但在现实世界中，训练和测试环境将不同，要么来自相同的分布（IID泛化环境，第二列），要么来自不同的分布（OOD泛化环境，第三列））

二、相关工作：强化学习子领域的survey

以往的survey工作包括：
（1）持续强化学习（CRL）：这与RL中的泛化密切相关，但未考虑zero-shot的特性。
（2）鲁棒RL（RRL）：聚焦于解决环境模型中最坏情况的效果，是泛化性的一个子领域。
（3）sim-to-real：模拟到真实是泛化问题的具体实例，sim-to-real的一些方法依赖于来现实数据。
（4）RL迁移学习（TRL）：TRL与泛化相关，都假设策略在不同环境中训练，但TRL侧重于额外训练，这里侧重于zero-shot。
（5）多任务深度RL
（6）RL中的探索
（7）RL中课程学习

三、强化学习中的泛化的形式

3.1 监督学习中泛化性

监督学习中，通常假设训练和测试数据集来自相同分布，其泛化性与测试效果相同。具有训练和测试数据Dtrain、Dtest和损失函数L的模型φ的监督学习中的广义差距定义为

对于泛化性的五种概括：
（1）系统性：通过系统地重组已知的部分和规则来概括
（2）生产力：将预测扩展到超出训练数据长度的能力
（3）替代性：通过用同义词替换组件的能力来概括，
（4）.局部性：如果模型合成操作是局部的，而不是全局的
（5）过度概括：如果模型关注异常或对异常具有鲁棒性

3.2 强化学习泛化性背景

RL中的标准形式是马尔可夫决策过程（MDP），MDP由元组M=（S，a，R，T，p）组成。
POMDP是部分可观测马尔可夫决策过程，POMDP由一个元组M=（S，A，O，R，T，φ，p）组成，其中o是观测函数，φ是状态到观测的转移函数。

3.3 上下文马尔可夫决策过程

讨论泛化性需要一种方法谈论一系列任务、环境或级别。如OpenAI的Procgen，标准协议是在200个级别的固定集合上训练策略，然后评估级别的完整分布的性能。
为正式化任务集合的概念，这里从上下文马尔可夫决策过程（CMDP）开始。这里状态变为 $s=(c,s^{'}) \in S_{C}$ ，其中 $c$ 是上下文信息， $s^{'}$ 是基础状态。其中上下文 $c$ 代表种子、ID或参数向量这些决定任务的信息。因此在一个episode里 $c$ 不会发生变化，在不同的episode中 $c$ 才不同。CMDP是任务或环境的全部集合，在Procgen中，每个游戏都是一个单独的CMDP。
这里通常假设智能体无法观察到上下文信息c，因此将CMDP看作可以观察到状态s的POMDP。其中观测转移函数为： $\phi (s^{'},c) = s^{'}$ 。
奖励函数、转移函数、初始状态分布和发射函数都将上下文作为输入，因此上下文决定了MDP。每个上下文MDP代表了一种任务的等级或类型。
一些MDP具有随机过渡或奖励功能，因此进行试验时需进行随机种子的设置，理论上讲这些种子可以被看作是上下文。但这里作者不认为它是上下文，这更紧密地映射到具有随机动力学的真实场景，在那里无法控制随机性。

3.4 训练和测试上下文

由于泛化性源自训练集和测试集的差异，因此需要指定一组训练和测试的上下文MDP（因为上下文决定MDP）。
划分训练集和测试集时，对于任意的CMDP： $M = \{S, A, R, T, C, p \}$ ，可以生成一个子集 $C^{'} \in C$ ，通过上下文子集划分训练和测试集。（如设置procgen的种子）。
训练：
对于任何CMDP，其期望回报可设置为：

其中，R是策略奖励， $p (c)$ 是上下文分布。
在上下文训练集中训练，上下文测试集中测试，目标就是在测试集中的表现：

如procgen中，使用200关作为训练集，使用全分布作为测试集，实现zero-shot的迁移。
与监督学习一样，可以将训练和测试效果之间的差距作为通用性的衡量标准：
这种形式主义定义了一般化问题，每个问题都由CMDP、训练和测试上下文集的选择决定。

3.6 应用实例

openai的procgen：游戏由不同层次组成，具有不同的布局或敌人数量，以及不同的视觉风格，不会影响动态或奖励功能。在这种环境中，上下文是一个随机种子，作为级别生成的输入。
Sim-to-real：上下文集分为与模拟相对应的上下文和与现实相对应的上下文。环境决定了动力学、观察功能和状态空间。CMDP通常可以理解为两个CMDP的有效结合，一个用于现实，一个模拟，具有共享的行动空间和观察空间类型。领域随机化的动机是，在模拟中产生广泛的可能上下文将使上下文的测试分布更接近扩展的训练分布。
医疗保健：未来RL部署的一个有前途的领域，因为存在许多顺序决策问题。如，诊断和治疗单个患者的任务可以理解为CMDP，其中患者有效地指定了上下文：患者对测试和治疗的反应不同（动态变化），并可能提供不同的测量（状态变化）。上下文总是可以调节相关MDP函数以控制变化。假设某些部分的上下文（或关于上下文的某些信息）是可观察的，因为可以访问患者的病史和个人信息。
自动驾驶：在不同的地点（状态空间变化）、由于一天中的时间（观察功能变化）而在不同的天气和照明条件下以及在不同的路面上驾驶（动态变化）都是这些系统需要解决的问题。

3.7 更可行泛化的其他假设

仅使用CMDP结构假设难以给出泛化效果的理论保证。必须做出进一步的假设。这些是关于类型变化、训练和测试上下文集的分布或上下文集中的附加基础结构的假设。

训练和测试上下文集分布的假设
假设：
（1）尽管训练和测试上下文集不相同，但这两个集合的元素来自相同的基础分布，类似于监督学习中的iid数据假设。如 OpenAI Procgen的设置，其中训练上下文集是从种子的全分布中随机均匀采样的200个种子的集合，并且全分布被用作测试上下文集。
（2）许多RL泛化工作不假设训练和测试环境来自相同的分布。被称为领域泛化，这里将训练和测试环境称为不同的领域，这些领域可能相似，但不是来自相同的底层生成分布。典型的如sim-to-real。
结构的进一步形式化假设
假设：
（1）块MDP：假设在从潜在状态空间到给定观察空间的映射中存在块结构，或者存在由具有与给定MDP相同行为的较小状态空间描述的另一MDP。Du等人[39]使用这一假设来改善勘探边界，这取决于潜在状态空间的大小，而不是给定的观测空间。Zhang等人[40]开发了一种表示学习方法，该方法将相关特征与不相关特征区分开来，改善了对只有不相关特征变化的环境的泛化。
（2）因子MDP：可用于描述面向对象的环境或多智能体设置，其中状态空间可分解为独立的因素。

3.8 备注和讨论

泛化的度量
有两种明显的方法可以评估模型的泛化性能。一种是只看评估任务的绝对表现，另一种是看泛化差距。在监督学习中，不同算法的泛化能力通常通过评估任务的最终性能来评估。在RL中，我们更关心算法的泛化潜力，方法是将泛化与训练性能解耦，并使用泛化间隙进行评估。
但在如此广泛的类别中，目标甚至可能相互冲突。各种RL算法的泛化性能可能取决于其部署的环境类型，因此需要对部署时存在的挑战类型进行仔细分类，以正确评估泛化能力。
解决泛化问题的角度
为了提高测试性能，可以（1）提高训练时间性能，同时保持泛化间隙恒定，（2）减少泛化间隙，同时保持训练时间奖励恒定，或者（3）混合使用两种方法。在RL中，与泛化无关的工作采用第一种方法，RL中的泛化工作目标是（2）。
Zero-shot策略转移动机
在这项工作中，专注于zero-shot的策略转移：策略从训练CMDP转移到测试CMDP，并且不允许在测试上下文中进行任何进一步的训练。

4. 强化学习中的泛化基准

本节给出了RL泛化的基准分类。基准任务是环境选择（CMDP，第4.1节）和适当的评估协议（训练和测试环境集，第4.2节）的组合。对基准进行分类后，作者指出纯PCG方法生成环境的局限性（第4.3节，通用化程序内容生成的缺点），并讨论了泛化问题中困难的范围。

4.1 环境

4.1.1 泛化环境的分类

表1中列出了RL中测试泛化的可用环境，并总结了每个环境的关键属性。这些环境都提供了一个非单例上下文集，可用于创建各种评估协议。选择一个特定的评估协议，然后产生一个基准。
Style：给定一个高级别描述
Contexts：描述了上下文集。有两种设计上下文集的方法，其区别在于是否可以看到上下文内容。
（1）第一种，叫做过程性内容生成（PCG），使用随机种子来在上下文MDP生成期间确定选择。是一个黑箱过程，只选择一个种子。
（2）第二种，叫做可控环境，对上下文MDP之间的变化因素提供了更直接的控制。上下文集通常是多因素空间，既包括连续空间又包括离散空间。
后面使用“PCG”表示使用种子作为输入的黑盒PCG，使用“可控”来指直接更改上下文MDP相关参数的环境，即白盒PCG。
Variation：描述了上下文MDP集合中的变化。可以是状态空间变化（、动态变化（过渡函数）、视觉变化（观察函数）或奖励函数变化。
分类列表：

在上下文列中，PCG表示过程内容生成，Con表示连续，Dis-C表示离散基数，Dis-O表示离散序数。在变异栏中，S、D、O和R分别是状态、动态、观察或奖励函数变异。

4.1.2 环境趋势

环境中网格世界（14.25%）和连续控制（13.24%）受到关注，但街机风格和3D环境的基准已经确立。PCG在通用环境中大量使用，在21个（38%）环境中使用。许多环境将PCG组件与可控变化相结合。大多数环境在其上下文集合中有几种不同的变化因素。
在变化方面，状态变化最常见（42，76%），其次是观察（29，53%），然后是奖励（20，36%）和动态（19，35%）。
在基准集合中可以分类：PCG状态变化的网格环境（MiniGrid、BabyAI、Crafter、Rogue-gym、MarsExplorer、NLE、MiniHack），非PCG观察变化的连续控制环境（RoboSuite、DMC Remasted、DMC-GB、DCS、KitchenShift、NaturalEnvs、MuJoCo），以及可适用于zero-shot泛化的多任务连续控制基准（CausalWorld、RLBench、Meta-world）。

4.2 泛化评估协议

评估协议规定了训练和测试上下文集、训练时对训练集采样的限制以及训练环境中允许的样本数量。

PCG评估协议
PCG环境提供了三类评估协议，分别为
A：单个上下文训练，整个上下文集测试
B：一小组上下文训练，整个上下文集测试
C：完整上下文集训练，其中的一组上下文测试
对于A，由于难度太大，目前没有实例。
对于B，可能会出现在训练集上过拟合而导致在测试集上效果不好的情况。该协议的示例包括OpenAI Procgen、RogueGym的两种模式，JumpingFromPixels和MarsExplorer的一些使用。
对于C，并没有明显地针对泛化问题，它的测试集来自训练集的一部分，但相对于原始RL的协议具有一定的泛化性。这里作者任务C应该是标准RL的评估协议，原来的评估协议只是一个特例。
A,B,C分别对应于下图的三列。
可控环境评估协议
主要为下图，考虑训练上下文，在其基础上进行内推分布测试、单个因子的外推测试和多个因子的外推测试。

4.3 讨论

非视觉泛化：非视觉类型的泛化应使用视觉简单的领域，如MiniHack[77]和NLE[79]。这些环境包含足够的复杂性，可以测试许多类型和非视觉概括的优势。有许多现实世界中的问题设置不需要视觉处理，例如系统控制和推荐系统。
DeepMind控制套件变体：泛化基准的一个子类别是DeepMind Control Suite[99]变体的选择：DMC-Remastered, DMC-Generalisation Benchmark, Distracting Control Suite, Natural Environments [61, 60, 37, 78]。这些环境都关注视觉概括和样本效率，需要从像素学习连续的控制策略。其中Distracting
Control Suite是功能最全面的变体，因为它具有最广泛的变体，其中最难的组合是当前方法无法解决的。
无意的泛化基准：一些环境最初并不是泛化基准，但可以通过不同的评估协议来适应这种情况。包括CausalWorld, RWRL, RLBench, Alchemy, Meta-world等。建议在使用这些基准测试时明确使用哪种协议，并与之前方法的评估进行比较。使用标准方案有助于再现性。
泛化过程内容生成的缺点：PCG往往使用随机种子集，没有用于控制上下文MDP之间的变化的附加结构。
（1）PCG很有用，但纯PCG存在一些问题：这些环境支持的评估协议范围限于不同大小的训练上下文集，不对其特定因素进行解耦难以进行一般化。通常需要付出更多的努力才能将这些因素设置为特定的值，而不是仅显示生成级别的值。因此纯PCG无法对特定类型的通用化进行更具针对性的评估。
（2）一个折中方案：在程序上产生一些低水平的环境，但仍有许多变化因素在研究人员的控制下。如，障碍塔[82]有程序生成的平面布局，但视觉特征（以及某种程度上的布局复杂性）可以控制。另一个例子是MiniHack[77]，其中可以用丰富的描述语言从头开始指定整个MDP，如果需要，PCG可以填充任何组件。为了在环境（尤其是状态空间）中产生足够的多样性，需要使用PCG，如果控制足够精细，能够进行精确的科学实验，那么环境仍然有助于解开一般化的进展。
上下文MDP中的合成泛化
（1）可以使用多维上下文集来评估系统性，并测试训练时未看到的上下文维度的新组合（图3中的组合内插）。
（2）可以用顺序或连续因素进行评估，衡量在环境中表现良好的能力，环境值超出了训练时的环境值（图3中的任一种外推）。
需要一个具有结构化上下文空间的可控环境来测试这些形式的合成泛化，并确保智能体在测试时看到真正新颖的组合；这在OpenAI Procgen[36]或NLE[79]等PCG环境中很难验证。
（3）使用同义词（在语言中）或等效对象和工具的替代性。
（4）通过将分别给出命令A和命令B的代理的解释与A+B的组合进行比较。
（5）通过代理人如何对语言或环境规则中的异常做出反应而过度概括。
理想的泛化性
由容易到困难的评估协议如下：
（1）增加样本数量可以提升测试效果，但对于泛化能力提升却不大。增加上下文的数量可以使泛化性评估协议更容易。
（2）在测试上下文集合中进行外推或组合内插的变化因素的数量也可以变化。数量越多，评估方案就越困难。此外，外推因子在训练时采用的值范围的宽度可以变化。这与背景的数量有关，但也与这些变化轴上训练时可用的变化有关。
（3）作者考虑了沿着不同类型的变异因素进行插值和外推的困难。沿着序数轴的插值可能是最简单的，然后是主轴插值（通过基数轴与任何其他轴的可见值的不可见组合进行），然后沿着序数轴进行外推。最后，沿着主轴的外推是最困难的。
标准RL方法很难在泛化性问题中获得好的效果。在涉及某种形式外推的更困难的协议中，标准RL方法根本不可能出现泛化，因为没有理由期望政策正确泛化到完全看不见的值。因此需要考虑从相关环境传输现有知识的方法：强烈的归纳偏差、关于变化的假设或利用在线适应。

5. 强化学习中的泛化方法

这里将泛化性方法分为尝试提高训练和测试数据与目标之间的相似性的方法（第5.1节）、明确旨在处理训练和测试环境之间差异的方法（5.2节）以及针对RL特定问题或优化改进的方法（5.3节）。
下图是分类图：

下表按方法、评估的环境变化以及它们是否主要改变环境、损失功能或架构对方法进行分类：

5.1 增加训练集与测试集的相似性

在其他条件相同的情况下，训练和测试环境越相似，泛化差距越小，测试时表现越好。

5.1.1 数据增强和域随机化

使训练和测试数据更相似的两种自然方法是数据增强[104]和域随机化[105、106、107]。当已知训练和测试环境之间存在差异时该方法比较有效，但这种方法难以捕捉到更强类型的变化。
数据增强（DA）可以从两个角度去考虑。一方面，可以将增强的数据看作训练模型的附加数据，这样DA可以增加训练和测试数据之间的相似性。另一方面可以通过对模型进行正则化使不同的增强数据点具有相同的输出，来强制学习不变性。第二种主要涉及编码归纳偏置，在5.2中详细介绍。
在强化学习中使用DA技术的方法有很多，但并不全是用来解决泛化性问题的。
（1）Raileanu等人[108, UCB DrAC]将DA技术DrQ[109]应用于Actor-Critic设置中（PPO），并介绍了一种在训练期间自动选择最佳增强的方法。
（2）

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
OSPF LSA5、LSA7 中 FA 工作原理详解斐夷所非 network 网络
FA(ForwardingAddress)仅出现在LSA5或LSA7中，它是数据包访问外部网络时，在数据报文离开OSPF路由域时必须经过的设备地址。LSA5作用LSA5区别于LSA3/LSA4，LSA5仅负责通告OSPF路由域外其他协议的路由，如RIP、BGP等。当外部路由引入到OSPF后，靠LSA5将其泛洪到OSPF路由域。LSA5具有其他LSA所没有的泛洪范围，除了特殊类型区域(Stub及NS
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
2022-01-15 倚剑白云天
拾取拾取诗囊挽去愁，破船载酒泛中流。尘心不碍沧桑迹，高挂斜阳古渡头。欲将一念问空门，谁管荣枯身后痕。故国河山斜日里，茫茫风雨几销魂。日落堂前有所思，树声鸟语报新词。苍穹独眷羁愁客，春雨催红一地诗。风雪苍茫心似灰，情丝谁肯力添培。山中醉卧无他事，那管兴亡第几回。
江苏网络作家村打造网络文学泛娱乐龙杰创始人成导师龙杰传媒一路听天下
网络文学作为新兴的领域，逐渐走上了正规军的队伍，国家也是大力扶持。龙杰传媒2005年以来孵化过众多网络作家的优秀作品，让网络上的好作品也能发扬光大。就在上周末，“江苏网络作家村”和“中国网络文学泛娱乐产业孵化基地”揭牌仪式在镇江宜园举行。龙杰网大文化传媒联合创始人陈明珠女士应邀出席了揭幕仪式，并签约成为首批“江苏网络作家村”IP导师。出席活动的有：中国作协网络文学委员会主任陈崎嵘、江苏省作协党组书
秋意悠悠，回忆海海暗香盈袖
文\暗香盈袖01人生海海，过往悠悠，不觉已指间稀落，迈入中年。时光已走远，人却仍停在那些回忆里。回忆里，有三月花，六月荷，九月风。有烟火平常，有生命的原味从远处的心穴缓缓吹过。朝云暮雨的日升日落，在那里放牧生命嘀嗒的游走。袅袅的炊烟，一日三餐，弥漫着童年的余味和香气。烂漫如樱花的少年时光，在心角依然滚烫。奔走的激情是永恒的火，燃烧。懵懂中透露天真，勇敢中不失可爱，如野蔷薇开在原野，一地粉，无边的泛
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
Netty权威指南：Netty总结-高性能与可靠性 Ty_1106 Netty java 网络 rpc
第二十二章高性能之道22.1RPC调用性能模型分析22.1.1传统RPC调用性能差三宗罪：网络传输采用同步阻塞I/O导致经常性阻塞序列化性能差线程模型问题22.1.2I/O通信性能三要素传输：BIO、NIO或者AIO协议：HTTP公有协议，内部私有协议线程：数据报如何读取，Reactor线程模型22.2Netty高性能之道22.2.1异步非阻塞通信I/O多路复用技术22.2.2高效的Reactor
案例分析：如何用设计模式优化性能7 是小旭啊 fastapi
设计模式就是对常用开发技巧进行的总结，它使得程序员之间交流问题，有了更专业、便捷的方式。比如，我们在《02|理论分析：性能优化有章可循，谈谈常用的切入点》中提到，I/O模块使用的是装饰器模式，你就能很容易想到I/O模块的代码组织方式。事实上，大多数设计模式并不能增加程序的性能，它只是代码的一种组织方式。本课时，我们将一一举例讲解和性能相关的几个设计模式，包括代理模式、单例模式、享元模式、原型模式等
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
早安心语星星点灯_cym
2019年10月6日星期日晴早安心语：仰望天空时，什么都比你高，你会自卑；俯视大地时，什么都比你低，你会自负；只有放宽视野，把天空和大地尽收眼底，才能在苍穹泛土之间找准你真正的位置。无须自卑，不要自负，坚持自信。早上好[太阳][太阳][太阳][红包][红包][红包]图片发自App
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
春暮秋往，冬余寒狱殇
梨花带雨美人泪，霞日红尘自少华。图片发自App春临桃红绽，映天泛霞红。图片发自App深林终归树，挣上青云端。图片发自App冬日晚霞，落草凄美。图片发自App落日余晖璧，留余使人情。图片发自App
禅定修炼专业讲座（2）：规则性禅定与递增式禅定——专讲：鼎然寂静a
禅定修炼专业讲座（2）：规则性禅定与递增式禅定——专讲：鼎然规则等同于约束或局限甚至限制或禁锢。规则化的禅定（修行）或已被规则化禅定（修行）是不可能提升到一定的境界或层次性顶级禅定，因其局限性或禁锢性所致。产生规则化禅定（修行）源头来自已经被早早认定的规矩（固化性认知）几百年甚至上千年都不曾改变，这就是传统式修行模式，依此模式所培养出来的禅定（修行）者无一例外地遵循已被固化了的修行模式，几乎一个模
七绝·与妻书幽小窗
轻荷饮露南风里，公子白裳演玉笛。酒暖鸳鸯花下醉，扁舟载恨寄吾妻。注：新韵，首句平起不入韵。轻荷：轻倩艳丽的荷花。南朝宋傅亮《芙蓉赋》：“泛轻荷以冒沼，列红葩而曜除。”唐白居易《荷珠赋》：“迸水所集，轻荷正敷。”
预警提醒并生成日志，便于后期追溯的智慧地产开源了 AI服务老曹开源安全智慧城市大数据人工智能
智慧地产视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。AI是新形势下数字经济的重要基础设施，具备同各行各业结合的能力，越来越多的行业和领域都在进行不同层次的智能化升级。新人工智能时代将是泛智能时代，覆盖的范围也远远不止传统理解中的互联网和科
Vue3 的 shallowRef 和 shallowReactive：优化性能代码里的小猫咪 vue vue.js 前端 javascript shallow
大家对Vue3的ref和reactive都很熟悉，那么对shallowRef和shallowReactive是否了解呢？在编程和数据结构中，“shallow”（浅层）通常指对数据结构的最外层进行操作，而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素，而忽略更深层次的嵌套内容。1.浅层与深层的对比1.1浅层（Shallow）定义：只对数据结构的最外层进行操作或跟踪。对
简约之美，意境诗词(597)：宋·曾几~三衢道中诸葛二哥
原诗：梅子黄时日日晴，小溪泛尽却山行。绿阴不减来时路，添得黄鹂四五声。原作者~宋，曾几简约之美①：梅黄日日晴，溪尽却山行。绿阴来时路，黄鹂四五声。简约之美②日本俳句：《道中》梅黄日日晴，溪尽绿阴来时路，黄鹂四五声。再创作者~，诸葛二哥
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
那个宝青丝化笔Hnterly
当倾倒的酒杯还未散去浓浓的醉意，当袖口的红绳已经泛黑，迷离的眼睛不再闪光，酒杯中却出现了你的影子，还记得你最喜欢红色，说用红色可以串联你我永不分开，那天的风吹乱了你的头发，也撕碎了我的心，我只记得你离开的步伐很坚定，看着你远远的向我招手，却再回不到从前！也许以后不会再见面，可那留存的记忆会一遍又一遍的撕扯我的灵魂，很想念，很折磨，却又能如何！图片发自App
Vue 项目性能优化技巧分享 2401_84437170 程序员 vue.js 性能优化前端
importVuefrom‘vue’;import{Button,Select}from‘element-ui’;Vue.use(Button)Vue.use(Select)1.9、优化无限列表性能如果你的应用存在非常长或者无限滚动的列表，那么需要采用窗口化的技术来优化性能，只需要渲染少部分区域的内容，减少重新渲染组件和创建dom节点的时间。你可以参考以下开源项目vue-virtual-scrol
Scala教程之:静态类型 flydean程序那些事
Scala是静态类型的，它拥有一个强大的类型系统，静态地强制以安全、一致的方式使用抽象，我们通过下面几个特征来一一说明：泛类型型变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐式转换多态方法类型推断通过这些特性，为安全可重用的编程抽象以及类型安全的扩展提供了强大的基础。泛类型和java一样，Scala也有泛型的概念，在scala里面泛型是使用方括号[]来接受类型参数的。通常使用字母A来作为
2022-07-06 成长_3a8a
2022年7月6日中原焦点团队刘永利分享1028天，阅读《建构解决之道》训练营第6天学习收获：1、形塑常接在“所以你的意思是指”“你刚讲的意思是”“换句话说”等词语之后。2、会谈技术具有选择性以及转化性。3、无论是简述语意还是摘要，SFBT都非常强调咨询师需要以当事人的关键字，以整体知觉为基础，而非以咨询师的语言来诠释当事人的故事，如此才能真正发挥同理、理解的精神以及形塑的效果。4、咨询师在使用一
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
周勇//5. 21今日小满//鹧鸪天· 癸卯岁小满感怀//小满·夏景·夏意（十五）高山流水无情剑
题记：日月悠悠，小满今天，子规声里，夏雨绵连。熏风过麦，千层涌浪，肥叶催蚕，万户欢缘。蛙鼓池塘，悬垂柳钧，燕回梁穴，对歌唱联。枇杷熟透，楝花将谢，又是丰收，喜兆好年。鹧鸪天·癸卯岁小满感怀谷物夏来夜送浆，村头雨足尺难量。稻苗暗长抽新绿，麦穗潜滋泛乳黄。苦菜秀，垄生香，感时惬意漫荷塘。插田煮茧人勤早，五月山乡处处忙。小满时节话人生小满，既是二十四节气的第八个节气，也是一个极具人生智慧的词语。世间万物
《以色列——一个民族的重生》第四到第六章阅读笔记惠尔好我
在奥斯曼帝国统治时期，阿拉伯人就意识到，巴勒斯坦生活的犹太人将改变该地区的“阿拉伯属性”。第一次犹太移民潮中，欧洲犹太人带来的观念和现代性和当地犹太人以及阿拉伯人的意识形态发生冲突。可以说，当地人和外来者对国家和社会抱有的不同理念、对荣誉和记忆的不同感受以及许多其他方面的难以沟通，成为后来犹太人和阿拉伯人长期冲突的重要原因。反观中华民族强大的包容性，同化性，共生性带来了强大的生命力。为了架起各方沟
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

强化学习泛化性 综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

强化学习泛化性 综述论文阅读

摘要