智源社区

多样性强化学习：不光要赢，还要赢得精彩 | 清华吴翼

导读：在 OpenAI 工作期间，吴翼曾经完成了一个非常有趣的「捉迷藏」游戏项目，蓝色智能体需要藏起来，躲避红色智能体的抓捕。

在该项目构建的开放物理世界中，智能体学会了许多有趣、神奇的行为，比如说跳起来或通过梯子爬上盒子。从这个「捉迷藏」游戏出发，研究者引出了多智能体强化学习中的多样性学习问题。在这个新的强化学习范式中，AI不仅仅要得高分，还要尽可能用不同方式得高分。

作为智源大会“强化学习与决策智能论坛”的报告嘉宾，清华交叉信息学院助理教授、青源会会员吴翼，向智源社区介绍了他在多样性强化学习上的研究进展，并从「通过奖励随机化发现多样性的多智能体策略」和「通过奖励转换策略优化连续发现新策略」两个方面介绍了其团队在多样性强化学习方面的最新研究进展。

吴翼，清华大学交叉信息研究院助理教授，曾任OpenAI全职研究员，研究领域为强化学习的泛化性，多智能体学习，自然语言理解，机器人学习等。2019年在美国加州大学伯克利分校获得博士学位，师从Stuart Russell教授；2014年本科毕业于清华大学交叉信息院计算机科学实验班（姚班）。其代表作包括：NIPS2016最佳论文，Value Iteration Network；多智能体深度强化学习领域最高引用论文，MADDPG算法；以及OpenAI hide-and-seek 项目等。

研究背景

多样性强化学习是强化学习的重要子课题。在强化学习的设定下，人工智能体在与环境交互的过程中会得到一些奖励，而强化学习的目标则是最大化累积奖励，即智能体在环境中要得到最高的奖励分数。

时至今日，研究者们在强化学习领域已经取得了一系列突破性的进展。例如，智能体可以在很多复杂的游戏中取得超越人类的表现。强化学习还可以被用来做自适应控制。如上图所示，吴翼团队在 ICRA 2022 上发表了论文「Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets」，他们通过强化学习算法，使机械臂能够根据不同的材料和场景自适应地搭建积木桥。

吴翼在 OpenAI 工作期间曾经完成了一个非常有趣的「捉迷藏」游戏项目，蓝色智能体需要藏起来，躲避红色智能体的抓捕。在该项目中，他们构建了一个开放的物理世界，智能体可以学会许多有趣、神奇的行为（例如，跳起来或通过梯子爬上盒子）。其中，蓝色智能体有一个很重要的行为：用箱子将自己围起来，构建一个堡垒保护自己。

既然小蓝人可以将自己围住让自己不被看到，他们是否可以反过来将小红人围住呢？实际上，吴翼团队在「捉迷藏」游戏的环境中添加了一些金币，设计了一个名为「金币保护者」的游戏变种。在该游戏中，小蓝人除了要保护自己不被小红人看到，还要尽可能保护金币不被小红人吃掉，否则都会被扣分。而在该环境下，小蓝人确实学会了用障碍物将小红人围在角落中。

实际上，如果小蓝人在原版的捉迷藏游戏中将小红人围在墙角，也可以获得很高的分数，是非常合理的行为。那么，一个值得探究的问题是：为什么将小红人围起来的行为没有出现在原版的「捉迷藏」游戏中？是因为探索不足？还是奖励机制不够完善？

为此，我们首先尝试了使用「基于计数的探索」方法，让智能体能够访问更多的状态。尽管智能体可以学会更多有趣的行为，但是仍然无法学会将小红人围在墙角。此外，我们还尝试了将探索的奖励和自博弈进化的奖励相结合，发现这样仍然很难学到将小红人围在墙角的策略。

通过奖励随机化发现多样性的多智能体策略

在 ICLR 2021 上，吴翼团队发表了题为「Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization」的论文，探究了如何发现多样性的多智能体策略行为的问题。

早在 18 世纪，卢梭就在其著作《论人类不平等的起源和基础》中提到了一个名为「猎鹿博弈」的故事：有两个猎人，他们的目的是捕获一头鹿，同时他们自己本身已经非常饥饿。由于鹿十分谨慎，猎人挖好了陷阱，在雪地里埋伏了很久。此时突然出现了一只兔子，两名饥肠辘辘的猎人都需要在以下两个选项中做出抉择：（1）抓住兔子美餐一顿，但是兔子的肉少并且会把鹿吓跑再也抓不到了（2）忽略眼前的诱惑继续等待鹿掉入陷阱，忍受饥饿。

可见，该游戏中存在两种纳什均衡：（1）两人都等待鹿掉入陷阱（2）两人都去抓兔子。然而，如果一个人选择等待，另一个人选择抓兔子。则选择等待的人损失很大，既没有迟到兔子，也无法再捕获鹿。那么，如果我们使用强化学习自博弈来学习猎鹿博弈，算法会收敛到哪种状态呢？

当我们只考虑两种纳什均衡时，假设每个人捕获鹿可以获得 4 的奖励，捕获兔子可以获得 2 的奖励。此时，强化学习的随机性较大，收敛到两种纳什均衡状态的可能性差别不大。

然而，如果进一步考虑一名猎人选择等待，另一名猎人选择抓兔子的情况，则抓兔子的人会得到 3 的奖励；而等待的人会被饿死，其收益为 -100。此时，两名猎人之间的合作是非常危险的，如果遭到背叛则会得到很低的期望收益。仿真实验结果表明，当死亡的惩罚越来越大时，算法都会收敛到非合作策略上，智能体会选择抓住兔子。

假设收益与损失之比很小，则死亡惩罚很大。即使在 2*2 的博弈矩阵中，完全不存在探索的问题，智能体也需要尝试多次才能发现最优的纳什均衡。如上图所示，x 轴代表策略空间、y 轴代表奖励。在高低起伏的奖励的 Landscape 中，存在一段很长的平缓区域，代表非合作策略（抓兔子）。

当智能体初始化状态位于这段平缓区域时，它几乎一定会收敛到非合作策略状态。如果我们希望智能体发现最优的合作策略，就必须让智能体处于「尖峰」处附近，才有可能收敛到合作策略上。

既然当奖励的 Landscape 在合作策略处过于「陡峭」，以至于智能体难以学到这样的最优策略，我们是否可以通过构造新的环境，将奖励的 Landscape 在「尖峰」处「拉平」，从而让智能体能够更容易学到合作策略？也就是说，我们可以对原始环境进行扰动，得到一种新的任意的 2*2 博弈，此时智能体有很大概率收敛到合作策略状态。我们让智能体在新的环境中找到合作策略，再将智能体置于原本我们关心的环境中进行评估。如果该智能体也可以找到原始环境中的最优合作策略，就满足了我们的要求。

如果我们可以在「回报矩阵」（pay-off matrix）上做随机化搜索，则这样找到最优策略的概率与奖励的 Landscape 是无关的，也就很有可能会搜索到非常平缓的奖励 Landscape，从而找到合作策略。

换而言之，在某个游戏中非常难以找到的策略，可能在另一个游戏中很容易找到。我们本质上实在奖励空间中进行了探索，而奖励空间的规模要远远小于策略空间。具体而言，我们在算法中首先定义了一个合适的奖励空间（通常为各项的线性函数），接着从奖励空间中采样到一组奖励函数。针对每个奖励函数，我们都要学习一个最优策略。最后，我们在原始游戏中对得到的最优策略进行评估和调优。

时序信任困境：网格世界

我们在一个时序信任困境游戏——网格世界中验证上述算法的性能。在该游戏中，两个智能体处于一个 5*5 的网格世界中，智能体吃到苹果可以得一分。网格世界中还存在一个怪兽，怪兽会不断朝着距离最近的智能体移动。如果单个智能体遇到怪兽则会被怪兽吃掉，扣 2 分；如果两个智能体一起遇到怪兽，则会将怪兽击败，智能体各加 5 分。

因此，智能体之间存在风险合作，只有彼此信任才能击败怪兽，如果有一方逃跑则令一方会被吃掉。实验结果表明，标准策略梯度算法、基于计数的探索方法、MAVEN、DIAYN、RPG 等算法都会收敛到非合作策略上。

在所有找到的策略中，RPG 算法在进行了奖励随机化之后，回到原始游戏中调优后找到的最优策略为：两个智能体迅速汇聚到一起再也不分开，并一同朝着怪兽前进出，从而不断获得 +5 的奖励。两个智能体一起躲在角落也可以实现纳什均衡，是一种次优但是合理的策略。

时序信任困境：Agar.io

我们还在 Agar.io（球球大作战）游戏中研究了时序信任困境问题。在该游戏中，玩家需要操作一些球体，球体可以通过吃掉比自己小的球得分，同时球体也会变大。然而，球的体积越大则行动的速度也会变慢。除了「吃掉」小球，我们还可以将球体分解为多个较小的球，并同时控制它们，从而加快行动速度。

我们将该游戏简化为双人版，形成了一种新的风险合作机制。如上图所示，环境中存在黄色、蓝色代表的两个玩家，以及红色的脚本智能体代表的食物。

由于食物小球的速度往往比我们控制的球体快，如果想要抓住食物就需要将其尽可能封在角落里。两个智能体合作抓捕食物的成功概率更大。然而，此时两个智能体的十分接近，合作捕食的过程中也有可能被另一方吃掉，因此具有一定的风险。

在这一环境中，智能体学会了合作捕食的「合作」策略、单纯吞并其它智能体的「侵略性」策略、即使不能捕食也坚持与其它智能体保持较大距离的「非合作」策略、在合作过程中偶尔吞并合作者某部分的「侵略性合作」策略、将自己牺牲给其它智能体的「牺牲」策略、智能体之间持续交换部分机体的「部分牺牲」策略。其中，最优策略为平衡「相互牺牲」、「单独捕食」、「合作捕食」的结果。

小结

在该工作中，我们通过奖励随机化发现了多样性的策略。该工作表明，奖励的引导对于得到人类易于理解的策略至关重要；对奖励空间的探索远比对状态空间的探索更高效。该工作也引出了一些开放性的问题，例如：（1）如何设计奖励空间？（2）如何发现更细粒度的策略模式？

通过奖励转换策略优化连续发现新策略

如前文所述，奖励随机化方法要求我们拥有一个奖励空间。但是在大多数情况下，这种奖励空间并不能够直接获得。为此，吴翼团队在 ICLR 2022 上发表了论文「Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization」，讨论如何在没有奖励空间的情况下发现有趣的智能体行为。

4 球游戏

我们考虑单智能体的运动问题：4 球游戏。如上图所示，黄色的智能体周围有 4 个标志物，只要智能体碰到一个标志物就可以得到一分，游戏的奖励是稀疏的。我们证明了，在随机重置反复实验的情况下，即使是最简单的算法都可以找到所有 4 个最优策略。

现在，我们考虑困难一些的情况，假设 4 个标志物的大小不一，在距离智能体较近的地方有一个很大的球，在距离较远的地方有一个很小的球。实验结果表明，由于智能体开始采用随机探索的策略，大多数的随机运动轨迹都会碰到较近的大球，很难绕过所有的障碍物找到较远的小球。在大多数情况下，智能体会收敛到寻找较近的大球的情况。

此时，我们并没有奖励空间，无法进行奖励随机化。为了让智能体学会所有 4 个最优策略，我们考虑设计一种基于策略差异度量的引导，为与已知策略不同的策略赋予额外的奖励，或惩罚与已知策略相近的策略。通过上述方法，我们不断将新找到的策略加入已知的策略空间，在剩余的策略空间中搜索新的策略，以此循环往复，直至找到最优的最优策略。

基于上述思想，我们可以设计一个迭代算法：在每一轮迭代中，我们希望找到奖励最大的策略，并且希望它与之前所有的策略都不同。具体而言，我们选择交叉熵作为策略的距离度量，希望当前策略生成的轨迹在已知的参考策略下出现的概率较小。为了满足对策略距离的约束，我们将拉格朗日乘子作为距离度量的系数加入到目标函数中。由于目标函数的两项都是关于轨迹的期望，因此可以将两项合并起来，式中的第一项为环境奖励，第二项为内在奖励。

然而，在强化学习场景下，拉格朗日乘子往往是个常数。但是根据优化理论，为了保证收敛，该系数必须是自适应的。但实际上策略梯度存在方差大的问题，难以得到自适应的稀疏，调参难度十分大，算法很容易收敛到之前的策略上。因此，我们试图强迫使找到的新策略与已知策略不同。

以第二轮迭代为例，我们希望最大化累积奖励，同时希望第二轮找到的策略与第一轮找到的策略不同，此时的约束是一个关于轨迹的期望负对数似然（NLL）的形式，我们希望所有轨迹的平均 NLL 系数大于 δ。理想情况下，我们可以丢弃所有不满足约束的轨迹，仅仅保留满足约束的轨迹，这样最终一定会收敛到与先前策略不同的解上。

轨迹过滤

我们将上述方法称为「基于轨迹过滤的策略优化」，我们在迭代求解过程中加入了一个示性函数来看过滤不符合约束的策略，从而使最终收敛到符合约束的策略上。然而，在深度学习范式下，我们不可能列举所有的情况，只能进行有限的采样。而在策略梯度算法运行的早期，很有可能列举出的样本都是不符合约束的，从而将所有数据全都丢弃，就无法计算梯度了。

然而，我们仍然可以对被丢弃掉的轨迹数据加以利用，将这些数据作为负样本，使策略能够避免生成这种较差的轨迹数据。为此，我们使用内在奖励，为负样本施加惩罚，负样本的质量越差（与已知策略越接近）则惩罚越大。

奖励转换

我们将整个框架称为「基于奖励转换的策略优化」（RSPO），将轨迹分为合理的轨迹（红色）和不合理的轨迹（蓝色）。对于合理的轨迹，我们优化环境奖励，让其收敛到局部最优。对于不合理的轨迹，我们优化内在奖励，使其远离负样本。这样一来，我们就可以利用所有的样本。实验结果表明，如果不使用内在奖励，则算法运行一段时间后就会产生缺乏正样本的情况；当我们使用奖励转换技巧后，尽管正样本数变少了，但是会内在奖励会将策略推向新的区域，进而产生越来越多的正样本，样本效率会重新提高。

如前文所述，使用拉格朗日乘子法优化时我们将环境奖励和内在奖励线性组合相加，但是这是一种较弱的多样性约束，导致最终收敛到的策略很有可能与之前发现的策略相同。而使用奖励转换后，我们一定可以满足新的约束。

实验结果

我们在 4 球游戏中评估 RSPO 优化的性能。在困难的环境中，现有的所有平滑约束的方法都很难跳出具有迷惑性的局部模式，而 RSPO 则十分稳健，在 4 轮迭代后就可以找到所有的模式。此外，奖励转换也起到了十分重要的作用。将奖励转换移除后，RSPO 只能找到两种模式。

在前文提到的网格世界信任困境游戏中，假设 RSPO 并不能利用奖励空间，在运行了 20 轮后，可以找出 20 种策略。如上图所示，起初智能体学到了吃苹果的策略，接着学到了智能体一起躲在角落、智能体合作追逐怪兽等策略。有趣的是，此时智能体还学会了一起在边界上来回移动的策略。

我们在 MuJoCo 连续控制环境中测试了 RSPO 算法。该算法可以发现各种跳跃的 Hopper、行走的 Walker、以各种姿势前进的 Humanoid。

我们在星际争霸游戏中测试了 RSPO 算法。在六轮训练中，RSPO 算法都可以找到六个完全不同的获胜策略，并且其中胜率最低策略的胜率也超过了 84.4%。

小结

RSPO 可以连续地发现新的策略。我们起初使用拒绝采样的方法丢弃掉不符合约束的样本。为了提升样本利用效率，我们进一步采用了奖励转换机制，合理利用负样本来优化内在奖励。此外，针对前文提到的「金币保护者」游戏，我们仍然在设法解决学习稳定性、多样性评估、提升收敛保障和样本效率等问题。目前，我们也发现了一些有趣的新的行为，例如：小红人搭起人梯，踩着同伴从箱子上翻进堡垒。

最后，上述项目均基于多智能体策略优化算法MAPPO，感兴趣的读者可以通过上图中的链接访问相关资源。

本次智源大会“强化学习与决策智能论坛”邀请到了贝壳找房副总裁、首席科学家，智源学者叶杰平、伦敦大学学院计算机系教授汪军、美国耶鲁大学统计与数据科学系助理教授杨卓然、阿里巴巴达摩院决策智能实验室负责人印卧涛、Lyft网约车实验室首席科学家秦志伟等，为大家介绍在强化学习领域最新前沿进展。

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
图论：以二维数组表示的连通图/树应如何表示？leetcode1042.不邻接种花坠金技术面算法图论算法 leetcode
1042.不邻接植花-力扣（LeetCode）容器在这道题中输入类似[[1,2],[3,4]]，这意味着花园1连通了花园2，花园3连通了花园4。那么该怎么根据这个输入，获取一个方便后面算法的表示呢？我们通常管这种存放邻居的数据格式叫做：邻接表通常我的思路是使用下列容器作为邻接表：哈希表，key就是花园i，value是与花园i接壤的其他所有花园。二维数组，第i个数组中的元素是与花园i接壤的其他所有花
基础算法高精度运算 #大数加法旧物有情基础算法算法高精度加法
文章目录题目链接题目解读完整代码参考题目链接题目解读题目描述输入两个正整数a,b，输出a+b的值。输入格式两行，第一行a，第二行b。a和b的长度均小于1000位。输出格式一行，a+b的值。完整代码#includeusingnamespacestd;vectoradd(vectora,vectorb){vectorres;intt=0;intsize=max(a.size(),b.size());f
图论——Prim算法水代码的程序猿力扣算法图论数据结构
53.寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。输入描述第一行包
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
弱网测试究竟要怎么做，才能防止漏测？学掌门 IT 软件测试程序员软件测试软件测试工程师
1、为什么要进行弱网测试？在游戏测试–黑盒测试中，分为功能测试与专项测试，在上几篇文章中说的都是功能测试，而专项测试主要包括弱网和性能测试。（其实弱网也是性能的一种。）功能测试主要是保证功能的完整性，能让玩家能够流程的体验整个游戏功能，而弱网测试就是其中需要关注的异常点。首先我们知道现在的网络场景一般是无网络2g3g4g和wifi，以及即将要到来的5g。弱网当然就包括无网、2g，3g不知道算不算，
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）小寒学姐学AI 3d 算法计算机视觉人工智能深度学习 python 三维重建
【小白深度教程1.32】手把手教你从多视角图像进行3D重建（SfM算法）1.SfM三维重建算法简介2.SfM方法和原理3.安装依赖库4.构建数据集5.可视化结果6.完整代码1.SfM三维重建算法简介从多张照片中开发三维模型被称为多视图3D重建。数码相机的进步以及图像分辨率和清晰度的提高，使得利用仅有的相机而非昂贵的特殊传感器来重建3D图像成为可能。重建的目标是从一组照片中推导场景的几何结构，假设摄
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
17-OpenCVSharp 中实现 Halcon 的 Points_Harris算子（Harris 角点检测）观视界 #opencv 人工智能计算机视觉图像处理矩阵
专栏地址：《OpenCV功能使用详解200篇》《OpenCV算子使用详解300篇》《Halcon算子使用详解300篇》内容持续更新，欢迎点击订阅在OpenCVSharp中实现类似于Halcon中的Points_Harris算子，实际上就是实现Harris角点检测算法。Harris角点检测算法是用于检测图像中的角点特征，可以用来进行图像匹配、物体识别等任务。Halcon提供的Points_Harri
使用Three.js渲染器创建炫酷3D场景
引言在当今数字化的时代，3D图形技术正以其独特的魅力在各个领域掀起波澜。从影视制作到游戏开发，从虚拟现实到网页交互，3D场景以其强烈的视觉冲击力和沉浸式的体验，成为了吸引用户、传达信息的重要手段。而Three.js，作为一款功能强大且广受欢迎的JavaScript3D库，为我们提供了便捷、高效的途径来创建令人炫目的3D场景。本文将深入探讨使用Three.js渲染器创建炫酷3D场景的方方面面，带领读
密码策略合规性检查仪表盘闲人编程 python 网络服务器异常报警实时监控多因素认证合规性密码策略
目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI界面模块四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2密码强度评分算法4.3合规性检测算法4.4统计与报告生成五、异步任务调度与GPU加速设计六、GUI界面设计与功能模块七
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
手机游戏《银河历险记2》：一场奇幻的星际解谜之旅 2501_90238385 游戏
《银河历险记2》是一款经典的解谜冒险游戏，故事发生在一个只有男孩和一只狗的星球上。一天，小狗被外星人抓走了，于是男孩踏上了营救小狗的冒险之旅。游戏的画面风格独特，采用了复古的像素艺术，营造出一种静谧而神秘的异星世界。游戏特色：奇幻与解谜的完美结合1.独特的像素艺术风格游戏的画面虽然简洁，但细节丰富，每个星球都有独特的风景和风格，从荒凉的沙漠到神秘的森林，让玩家仿佛置身于一个真实的异星世界。2.丰富
2. 猜数字游戏老实人y Rust小白初学 rust 开发语言后端
目录创建一个新项目处理一次猜测生成一个秘密数字使用crate来增加更多功能Cargo.lock文件确保构建是可重现的更新crate到一个新版本生成一个随机数比较猜测的数字和神秘数字使用循环来允许多次猜测猜测正确后退出处理无效输入最终代码程序会随机生成一个1到100之间的整数。接着它会提示玩家猜一个数并输入，然后指出猜测是大了还是小了。如果猜对了，它会打印祝贺信息并退出。创建一个新项目project
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

多样性强化学习：不光要赢，还要赢得精彩 | 清华吴翼

你可能感兴趣的:(游戏,算法,机器学习,人工智能,深度学习)