又一年七月

Multi-agent Reinforcement Learning: An Overview 读书笔记

abstract
introduction
background
benefit and challenge
MARL goal
MARL algorithm
application
example
Outlook
related work
conclusion

1.（废话）多智能体系统应用领域很广
2.（废话）MARL的好处
3. 简单讲述RL（agent采取一个action，使得当前state过度到下一时刻，agent获得一个reward，了解RL的人已经听得不耐烦了）
4.（重点）我们主要关注自主代理学习如何在线解决动态任务，使用源自时序差分RL（temporal-different RL）的算法。（Q-learning看来是时差RL的一种）
5.挑战之一，目标：稳定性（主体学习动力学，好的稳定性意味着算法最终能够收敛（比如收敛到纳什均衡），稳定性使代理的行为更易于分析和保证有意义的性能）与适应性（agent对其他agent的行为的反应，良好的适应性要求agent在其他agent改变策略时依然有很好的性能）

background

本节以下讨论只限于：有限的，离散的状态和行为空间。大多数MARL算法都是这样。
1.single-agent RL
①单智能体RL的形式化模型是Markov决策过程。Markov决策过程的定义（definition1）。
②提出了一个RL的研究困难，行为的长远影响难以定义（比如大家都玩过坦克大战，简单考虑的话，里面的操作有左右移动和开火，开火有可能消灭敌人，所以他的reward很好定义，但是移动的reward不好定义，移动可以走位可以保命，即长远影响，这不好定义）。
③提出了一种解决方法——贴现因子（式1）。可以理解为一个系数，对于某些未来可能会有更高收益的行为，就给他的reward乘以更大的系数。这个系数，应该也是需要学习的一个参数。
④要追求总体的reward——R最大，而不是每一步的瞬时reward——r.按我在②里提到的例子，这一点应该比较好理解。
⑤这一讲其实主要是想讲Q-learning算法，是一种经典的强化学习算法，很多MARL算法是基于他派生出来的。懂这一招的可以跳过这一节了。
⑥RL算法大概分为三种。无模型的基于价值函数的在线估计方法。基于模型的方法（又称动态规划）。学习模型（指状态转移概率函数和回报函数）的方法。
⑦RL的另一个难点，平衡探索（通俗的理解为：做没做过的事）和利用（利用已有知识做一些事情）。在最初的Q-learning算法中，探索是随机选取一个action，“利用”是用贪心算法选一个reward最大的action。二者的选择是基于概率（参数ε）的。还有一种基于布尔兹曼机的算法。效果是使得reward更大的策略有更高的可能性被选择。“利用”是为了让reward更大。“探索”是为了扩充模型覆盖面，一定程度上防止算法陷入局部极小。
2.multi-agent case
Definition2
3.static repeated and stage games
博弈论基础概念
静态博弈（static game），状态永不变的博弈。比如石头剪子布。
重复博弈（repeated game），在静态博弈的基础上，每个玩家都可以看到所有玩家出招的历史记录。就是你可以看到对方之前出了石头，你就会认为他下一次出锤头的概率小。
阶段博弈（stage games），同时属于前两种，是静态博弈的一个阶段。

benefit and challenge

1.benefit
①可以并行计算，使得计算过程很快速
②更高的鲁棒性，因为一个agent坏掉，其他的也能正常工作
③更高的扩展性，可以中途临时加入或减去agent
2.challenge
①随着agent数目的增加，计算复杂度呈指数增加
②好的goal难以定义，因为要综合考虑稳定性与适应性。
③agent受其他agent行为的影响（最佳策略随着其他代理策略的变化而变化。）
④权衡探索与开发

MARL goal

1，好的goal会平衡好稳定性与适应性，这两个概念是矛盾的。
①之前提到，好的稳定性保证算法能够收敛。好的稳定性一般意味着要较少针对性的考虑其他agent的行为。比如你可以把难以预料的其他agent的行为都写在“else”里面，直接抛异常，那就很稳定。虽然极容易挂掉，但是保证收敛。
②好的适应性，要求尽可能多的针对性处理其他agent的意外行为，一般的做法是，每个agent都会给其他agent建立行为模型。这开销极大。
2，关于table1的名词解释
①rationality【17】其他代理保持静止时，代理收敛到最佳响应的要求。
②no-regret。要求代理人获得至少与任何固定策略的回报一样好的回报，这适用于其他代理人的任何策略集。这一要求防止学习者被其他代理人“利用”。
③optimality/compatibility/safety。都是在强调算法的适应性。就是迁移，扩展给其他agent，依然能有不错的收益。
④opponent-aware。在意其他agent，需要建立其他agent的模型。opponent-independent。不特别考虑其他agent，只把它们当做环境的一部分。
⑤prediction。学习其他代理的精确模型的能力。Rationality【26】，如果一个代理在其他代理的模型下最大化了它的期望回报，那么它就被称为理性代理。

MARL algorithm

本文提到的MARL算法基本都是基于Q-learning的。
1，MARL算法分类（本文是这么分的，2x3=6类）：
根据任务类型可以分为：静态static（概念等同于静态博弈），动态dynamic（与静态相反，即包含状态迁移）
根据代理间关系可以分为：cooperative纯合作，competitive纯竞争，mixed既有竞争又有合作（为了自己的利益最大化，有时候要竞争有时候要合作）。
2，其他分类标准
①同质性：所有agent采用相同的算法，则这个多agent系统具有同质性，否则是异质。
②有无模型（模型指状态迁移函数和回报函数）：model-based，model-free。
③对其他agent的投入：观察行为，观察行为和reward，neither。
3，MARL=RL+博弈论+策略搜索技术（fig2）
4，解释table2，independent=把稳定性发挥到极限，tracking=把适应性发挥到极限，aware=介于两者之间。

5，全合作任务类型
	全合作随机博弈中。Goal：使总体收益最大化。如果有集中式控制器：任务简化为马尔科夫决策过程。这时的行为空间就是随机博弈的联合行为空间。这种情况用Q-learning可以解最优解。
	必须要有某种协调机制，显式也好隐式也好。举例说明

	如图这两个agent必须执行但是有obstacle，所以他们要绕一下。他们必须从同一个方向绕（左或者右），因为有个带子牵着他们。这时候同时走左或者右都是最优的。但是没有协调机制就会无法保证每次都最优，所以需要协调。
	①coordination-free
		Team Q-learning algorithm：通过假设最优解是唯一的来避免协调问题。（意思大概是指，比如在上面的例子中，假如某个时刻agent1和2都选择走左边，那算法就停了。下一次运作的时候，他们不会考虑走右边，因为他们认为最优解唯一）
		Distributed Q-learning algorithm：不需要做上述假设，且性能优秀，基本思想是，只做能使Q-value提高的更新（包括更新policy和Q-value）。but only works in deterministic problems（我也不知道什么是确定问题）with non-negative reward functions.

	②coordination-based：
		协调图。
		当全局Q-函数可以被相加分解为仅依赖于代理子集的动作的局部Q-函数时，可以简化协调图。	
	③indirect coordination
		基于为其他agent建立的model，以及对其他agent之前的行为分析等。预估下一回合对方agent的行为（比如在上述例子中，agent会猜测对方会走左还是走右）。
		Frequency Maximum Q-value (FMQ)。如果一个action在过去更容易获得好的回报，就使用布尔兹曼机调高他的Q值，反之则降低。缺点是：需要维护一个统计行为次数的计数器；在强随机回报问题（我也不懂）中可能fail；多一个要调的参数。
		Optimal Adaptive Learning (OAL)，很强，在任何完全合作随机博弈中，OAL可证明收敛于最优联合策略。但是代价是复杂度变高。
	④remark:
		A，上述方法都依赖于对状态的精确测量（有的甚至要求精确测量其他agent的行为），这导致如果代理们的感知一旦出现不同，他们会对自己的Q-function执行不同的更新，从而使Q-function和策略的一致性不能保证。
		B，除Distributed Q-learning algorithm和FMQ之外，其他方法会有维数灾难。但这两种也有自己的缺点。Distributed Q-learning只在确定任务中work。FMQ只适于静态任务。
6，纯竞争任务
	①，Opponent-independent。Min-max算法（alphaGO也使用了这个算法）。这里我只讲看一步的简单版，看多步道理差不多。想象你和对手在下象棋，你走一步之后会得到一个reward，然后对手走一步之后，他也会产生收益，他的收益就是你的损失。所以在你的model中，可以视为reward被对手减小了。现在我们为每一步棋都指定一个reward（本算法中是Q-value）。现在我们就产生了一个三层的树（根节点是当前状态，分支是你可能走的棋，第一层节点是走棋之后的Q值，接下来分支是对手可能的走棋，第三层节点是对手走后你的Q值）。那么我们该怎么决策呢。你会选择第一层里最大Q的那个行为吗，不会。因为对手也会走，对手走后我们的REWARD就会减小，肯定会减小到第三层的最小值。所以我们要选择第二层分支里第三层所有最小值里最大的那一个分支。（好吧没有图好难讲，你们可以看原文或者搜minmax算法）
	②，opponent-aware。WoLF，混合任务时我会介绍。
7，混合
	这种环境下的MARL算法受博弈论的“均衡”（参考纳什均衡）概念影响最大。很大一部分算法智能用于静态博弈（repeated，general-sum的）
	①，single-agent RL。就是把单RL的算法迁移过来。缺点是，因为多agent问题具有非平稳性（指通常状态转移函数和reward function会随其他代理策略的变化而变化），所以这一算法不保证收敛。但因为其简单性，以及在布尔兹曼机制下在特定问题中可以收敛，所以有一定的地位。
	②，agent-independent
		A，CE-Q，asymmetric Q-learning。都使用了斯塔伯格均衡，即leader-follower机制。可以理解为给agent设立优先级。比如我设下例中的agent1为leader，leader要存储follower的行动表，必须知道自己在作出某action之后follower会怎么选择。那么agent1肯定选左边而agent2肯定选右边，达到整体最优。
		B，Nash-Q。这一算法保证收敛到纳什均衡。但条件是每个阶段博弈都客观存在纳什均衡。
		C，均衡选择问题。（如下示例）

		游戏规则是两个扫地机器人去不同的房间就都有收益，但是小的收益更高（因为工作量少），去同一个房间就都没有收益。这个游戏存在两个纳什均衡，1左2右或者2左1右。选择哪个均衡都可以，这就是均衡选择问题，他很类似全合作任务中的协调问题。
	③，agent-tarcking（不保证收敛到最佳策略）（AB主要对付静态任务，C是动态任务）
		A，meta strategy algorithm：结合了fictitious play algorithm（在静态全合作任务中可以收敛到纳什均衡）的修改版，minimax，bully博弈策略（貌似是一种怕强欺弱策略，即先采取最贪婪的，但一旦受挫，就采取较差点的。就是见谁都开干，干不过就跑）。
		B，Hyper-Q。学习策略的价值而不仅仅是行动。
		C，NSCP。估计其他agent将要采取行为的概率，基于此概率选择自己的行为。
	④，agent-aware（一般保证收敛的算法都仅适于静态任务，适于动态的算法多为启发式，不保证收敛）（ABC为静态，DE动态）
		A，AWESOME。当所有其他agent都是静态时适应他们，否则收敛到纳什均衡。
		B，IGA。和WoLF-IGA都是用梯度更新规则保证收敛（类似梯度下降算法）。
		C，WoLF-IGA。WoLF机制，获得好的表现时采用小的学习率，差的表现采用大的学习率。
		D，WoLF-PHC。
		E，EXORL。在两个代理任务中应用了互补思想：策略更新以最小化其他代理偏离其当前策略的动机的方式存在偏差。因此，鼓励收敛到协调纳什均衡。
	⑤remark
		A,静态算法理应被扩展到动态
		B,现有动态算法并不总work（难收敛）
		C,很多算法不完善的环境信息太敏感。
		D,应该把单RL算法想办法迁移过来。
8，一些显式协调机制（我觉得不只是在全合作任务中才可用）
	1，social conventions, roles。可以理解为一些预设的行为规则，就好比我们生活中的女士优先，最后进房间的人关门这些行为。比如在刚才的例子中，你可以设置“编号小的agent优先”规则，就可以解决谁先通过狭窄小路的问题。再对agent行为（向左，向右，直行）设置优先顺序，就可以避免agent在catch object的时候，无法协调左右的问题。
	2，communication。使用方法是给agent编号，然后比如从小到大，agent1在选定自己的action之后，把自己的决策告诉其他agent，以此类推，显然，也可以解决上述2个问题。除了广播action之外，也可以广播完整的Q表、状态度量、奖励、学习参数等。

application

1，MARL技术主要应用于仿真领域（易于理解，环境简单，易出结果），现实中用得不多的原因是在实际情况中的任务需要可伸缩性和对不完全观测的鲁棒性。处理实际问题常用single-agent RL。
2，应用领域
①分布式控制（任何协作多智能体系统都是一个以智能体为控制器，环境为受控过程的分布式控制系统）。主要用在过程控制（系统边运作边进行控制，现实生活中例子很多，比如开车。除此之外还有前馈/反馈控制），交通信号灯控制，电网控制。
②控制机器人组。从基础的导航到复杂的踢球等。导航的技术细节包括循迹，避障（环境障碍和其他agent都要考虑）。扫地机器人，技术细节包括循迹，避障，覆盖尽可能多的环境表面（探索）。多agent协作任务：比如“捕猎”，2个agent在一起才能达成目的。对象传输，即比如2个agent把一张桌子抬到楼下。还有足球。
③自动化交易。Agent自己进行拍卖活动，可以是竞标的买，也可以是卖。比如买机票，订酒店等。通常涉及时差算法或Q-learning代理。
④资源分配。比如网络路由，电梯调度，负载均衡。性能度量包括平均作业处理时间、资源的最小等待时间、资源利用率和为客户端提供服务的公平性。（有点像操作系统和计算机网络里的东西）

example

1，游戏规则
	1和2表示2个agent，他们俩要协作把object运到home base 的位置。只有当他们俩一左一右抓住object的时候才能使object移动。灰色是障碍物。
2，分析
	显然这是一个纯合作的游戏，所以他俩的reward function可以用同一个函数。游戏难点是决定他们俩谁先通过狭窄区域；还有抓住object后走左边还是右边。
3，文中用了三种方法并且对比了他们的性能
	①single-agent Q-learning②team Q-learning（代表纯合作算法）③WoLF – PHC（代表混合任务算法）
	结果是他们都达到了最优的解。那么其他2个算法考虑其他agent的行为都白考虑了吗？文中提到了显式协调（人制定的协调政策）与隐式协调（机器自己学的行为，在此机制下。Agent学到一个最优解之后，就会不再考虑其他最优解。就是选择最好的之一）的概念。我个人理解是，就是白考虑了，这个问题比较简单，考虑的收益小于成本。
	所以single-agent Q-learning最优。·因为性能三者相当。但是single比team有更小的Q-table。比WoLF有更简单的更新公式（包括状态转移函数和激励函数）。

Outlook

1，MARL实际应用的困难
MARL技术只适合解决小问题（比如，静态博弈，方格网络），不太适合大的状态/行为空间，甚至状态/行为空间连续的现实问题。原因就是可伸缩性和对不完全观测的鲁棒性难以被满足。那么该怎么提高可伸缩性/适宜性/Scalability呢？对付小问题的MARL算法会用表格存储Q-functions and policies。对付大问题这不现实。所以提出了近似MARL算法可以近似的表示Q函数。他有打大boss的能力但是有两个缺点。第一，应用范围有限，适用的问题类型比较严格。第二，是启发式的。
所以MARL技术落地的突破口之一就是把single-agent近似RL的技术迁移到MARL中，取得性能突破。那么该怎么迁移呢？
①批处理算法在单代理近似RL中非常成功，但他是offline的，这不适合MARL问题，因为牵扯到其他的agent。所以必须是online的。
②提了2个有价值的路线上的工作（太高深我看不懂）一是Q-学习的近似变体，二是单代理近似RL的online增强版。感兴趣去原文找reference。另一类有前途的算法包括actor-critic技术，其中许多是专门用于连续状态和动作空间的。
③还有什么提高可伸缩性的方法呢。还有4点。
开发分散的模块化结构。
不完全的、不确定的状态测量可以用与部分可观测马尔可夫决策过程相关的技术来处理
向代理提供领域内先验知识，好处多多。
模型可以帮助初始化Q-function
2，MARLgoal的选择
这个提过了。就是平衡稳定性与适应性。
3，联合环境和学习动力学
就是说既要考虑到其他agent的policy的改变会让自己的最佳策略受影响。环境的改变同样可能会如此。所以要把环境和学习动力学联合起来。在这一点上鲁棒控制领域的技术可能有用。（反正你看到动力学三个字，就去控制论领域找东西准没错）

related work

1，（结合博弈论）有人结合了时差RL和博弈论解算器来求解在动态随机博弈的每个状态下出现的静态博弈。
2，（结合进化计算）使用非线性优化技术直接探索代理行为的空间（寻找最优action）。进化多智能体学习就是这种方法的一个突出例子。其他直接优化agent行为的方法有梯度搜索[65]、概率爬山[46]以及更一般的行为修正启发式。直接优化方法的缺点是不能从RL的任务结构中获益。

conclusion

nothing

【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
推测未来Agentic形态：Dynamic Cognitive Contextual Agent with Reinforcement Learning (DCCA-RL) weixin_40941102 语言模型
在AIAgent设计模式领域，我们见证了从简单的ReAct到复杂的LATS的演进，这些模式通过反思、工具使用、规划和多代理协作，极大地提升了AI的自主性和智能性。然而，随着任务复杂度和动态性需求的增加，现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此，我们基于对现有模式的全面分析，提出了一个更先进的单Agent框架：DynamicCognitiveCo
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
根据论文复现大模型方法以及出错处理技巧 Ai玩家hly 从0倒1 论文复现大模型复现 Ai大模型复现
复现一篇论文中的大模型搭建涉及以下几个关键步骤：理解论文的模型架构、数据集处理、超参数设置以及实验环境的搭建。这里给出一个基本的实现方法示例，假设我们选择复现一个图像分类任务中的经典模型，例如ResNet。实现步骤示例1.理解论文和模型架构选择一篇关于ResNet的论文作为示例，例如《DeepResidualLearningforImageRecognition》（Heetal.,2015）。2.
集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
Chainlink 预言机的原理解析 Chainlink资讯预言机 Chainlink 智能合约
本文来自于8月19日Chainlink开发者社区中国负责人Frank，在DAppLearning分享会上对于Chainlink预言机的原理的讲解，以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习：为什么区块链无法主动获取外界数据区块链的特点区块链是一个封闭的确定性系统，每一笔交易都需要不同节点共识，只有超过一定数量的节点共识成功，交易才会被真正认可，并写入区块链。因为对于外部API的
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
宝石组合第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
宝石组合题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯宝石组合https://www.lanqiao.cn/problems/19711/learning/问题描述P10426[蓝桥杯2024省B]宝石组合题目描述在一个神秘的森林里，住着一个小精灵名叫小蓝。有一天，他偶然发现了一个隐藏在树洞里的宝藏，里面装满了闪烁着美丽光芒的宝石。这些宝石都有着不同的颜色和形状，但最引人注目
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
数字接龙第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
数字接龙题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯数字接龙https://www.lanqiao.cn/problems/19712/learning/问题描述题目描述小蓝最近迷上了一款名为《数字接龙》的迷宫游戏，游戏在一个大小为n×nn\timesnn×n的格子棋盘上展开，其中每一个格子处都有着一个0⋯k−10\cdotsk-10⋯k−1之间的整数。游戏规则如下：从左上
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
vscode--工作区和相对路径一头大学牲程序--编程记录 vscode ide 编辑器
vscode的相对路径使用vscode编辑python项目时发现，它的相对路径是相对于当前工作根目录来定位的，也就是从工作文件夹的最顶级目录开始查找，而非是从当前执行文件开始查找。例子：根目录：F:\deep-learning-for-image-processing执行文件路径：F:\deep-learning-for-image-processing\pytorch_classificatio
DDA3020 Machine Learning 后端
DDA3020Homework1Duedate:March09,2025Instructions•Thedeadlineis23:59,March09,2025.•Theweightofthisassignmentinthefinalgradeis20%.•Electronicsubmission:TurninsolutionselectronicallyviaBlackboard.Besuret
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
【Linux】learning notes（4）cat、more、less、head、tail、vi、vim bryant_meng Server Config /Tools linux less vim tail more
文章目录catmore查看整个文件less查看整个文件head查看部分文件tail查看部分文件vim/vicatcat命令在Linux和Unix系统中非常常用，它用于连接文件并打印到标准输出设备（通常是屏幕）。虽然cat的基本用法很简单，但它也支持一些参数来提供额外的功能。-n或--number：对所有输出的行进行编号。示例：cat-nfile.txt这会显示file.txt的内容，并在每行的开头
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

Multi-agent Reinforcement Learning: An Overview 读书笔记