二向箔不会思考

多智能体深度强化学习综述与批判——Matthew E. Taylor

这篇综述是华盛顿大学的Matthew E. Taylor总结的，“A Survey and Critique of Multiagent Deep Reinforcement Learning”。下载链接：http://arxiv.org/abs/1810.05587v3。

0. 摘要

深度强化学习(Deep Reinforcement Learning, DRL)近年来取得了突破性的成果，出现了大量与之相关的算法和应用。最近的很多研究已经不仅仅局限于单智能体强化学习，进而开始研究多智能体学习场景下的深度强化学习。这篇综述的首要目的是对目前的多智能体深度强化学习（Multiagent Deep Reinforcement Learning, MDRL）相关文献力求做一个清晰的概述。主要包含以下内容：

(i)回顾多智能体学习(Multiagent Learning, MAL)和强化学习的基本要素，突出它们是如何发展到多MDRL场景的。

(ii)对这个领域新的研究者一些基本的指导，即介绍MDRL工作中的经验和教训，给出最近的基准，勾勒出待研究的问题。

(iii)从批判的角度指出MDRL现实中面临的挑战，如实现和计算方面的需求、可复现性等。希望能够有助于将来在大量的MAL和RL文献中用统一的范式通过共同努力来推动多智能体研究取得更多成果。

1. 引言

大概20年前，Stone和Veloso的重要综述奠定了多智能体系统的基石，并且定义了人工智能语境下多智能体系统的待解决的问题。大概10年前，Shoham, Powers,和Grenager看到大量的MAL领域的研究文章后指出MAL领域正在飞速发展。在那之后，MAL领域发表的研究结果继续稳定上升。那时候出现了很多不同的关于MAL的综述，有些分析MAL的基础和挑战，有些强调特定的领域如博弈论和MAL，还有合作场景，以及MAL的动态进化等。在过去几年里，总共有三篇与MAL相关的综述发表：learning in non-stationary environments , agents modeling agents, and transfer learning in multiagent RL。

伴随着人工智能的成功，研究者对MAL的研究兴趣也大大增加。一开始是单智能体玩电玩，然后是两个玩家的游戏如围棋和扑克等，接下来是两只相互竞争的队伍如Dota2和StartCraft II，这些工作都给大家留下了深刻的印象。

尽管上述不同场景使用了不同的技术和算法，但是大多来自RL和DL两个领域的组合。

RL是机器学习的一个子领域，主要研究智能体如何与动态环境交互进行学习。强化学习面临的一个重要挑战，也是创传统的机器学习面临的，就是需要人为的设计高质量的特征用于学习。而DL是一种高效的表示学习，可以自动发现原始数据中的有用特征。近年来DL成功应用在计算机视觉和自然语言处理等领域，而关键的原因就是神经网络(NN)可以从高维的原始数据中提取出有用的表达。
在DRL中，训练好的深度神经网络用来近似最优策略函数或者值函数。DNN作为近似器，大大提高了RL算法的泛化能力。DRL主要的优势就是能够将RL扩展到高维的状态和动作空间中去。不过目前应用较为成功的领域主要还是视觉领域，如玩Atari游戏。面对更加复杂且动态变化的现实应用，DRL还有很多工作要做。

DRL被认为是构建通用人工智能的重要技术，并且成功地与规划以及多智能体系统结合，出现了MDRL。

多智能体场景下的学习问题相较于单智能体，困难显著增大。非平稳、维度灾难、多智能体贡献分配、全局探索以及过于简化等问题。问题虽多，但AI的一些顶会如AAAI、ICML、ICLR、IJCAI、NeurIPS以及多智能体专门会议AAMAS都发表了许多MDRL的研究工作。基于这些最新的研究，首先做出概述，然后理顺与已有文献的关联。

首先回顾RL里面的关键算法如Q-Learning和REINFORCE，然后回顾DRL，最后介绍MAL和MDRL。

MDRL可以分为四类:

Analysis of emergent behaviors:主要将单智能体DRL的算法应用到MAL场景，观察是否会出现新>- 的行为（比如学会了合作、竞争或者产生了语言）。

Learning communication:智能体通过学习通信协议来解决合作任务。

Learning cooperation:智能体在不完全观测条件下学习如何合作。这里特指无通信下的合作场景。

Agents modeling agents:对其他智能体进行建模推断来完成任务。

图1 多智能体强化学习分类。

在3.2小节将对以上各个类型的MDRL进行具体描述并总结最新的研究。4.1小节介绍RL和MAL相关的算法一开始是如何形成MDRL的。4.2小节对这个领域新的研究者一些基本的指导，即介绍MDRL工作中的经验和教训。4.3小节给出最近的研究的基准。4.4小节从批判的角度介绍MDRL的挑战，如可复现性、超参数调整和计算能力需求能。4.5小节列出一些开放研究的问题。最后在第5节进行总结。

2. 单智能体学习

这一节在介绍DRL之前先给出RL的形式化描述及其要素、挑战、最新的算法。

2.1. 强化学习

这部分参考Sutton的书看看，很多人也总结了，这里就不写了。

2.2. 深度强化学习

这部分参考这个专栏吧，介绍很细致且提供详细注释的代码：：

《深度强化学习极简入门》

3. 多智能体深度强化学习

在介绍不同类型的MDRL之前，先建立基本的描述框架。

3.1 MAL

直接从MDP进行扩展，即 ( $\mathcal{S,N,A,T,R}$ ) ，与单智能体情况下的MDP不同的是，这里的转移函数 $\mathcal{T}$ 和奖励函数 $\mathcal{R}$ 都是基于联合动作空间 $\mathcal{A=}A_1\times\cdots\times A_\mathcal{N}$ ，即 $\mathcal{T}=S_1\times A_1\cdots\times A_\mathcal{N}$ 、 $\mathcal{R}=R_1\cdots\times R_\mathcal{N}$ 。对于智能体 $i$ ，将除它以外的所有智能体记为 $-i=\mathcal{N}\setminus\left\{i\right\}$ ，此时的值函数依赖联合动作 $\boldsymbol{a}=(a_i,\boldsymbol{a}_{-i})$ 和联合策略 $\pi(s,\boldsymbol{a})=\prod_j\pi(s,a_j)$ :
$V_{i}^{\pi}(s)=\sum_{\boldsymbol{a}\in\mathcal{A}}\pi(s,\boldsymbol{a})\sum_{s'\in\mathcal{S}}\mathcal{T}(s,a_i,\boldsymbol{a}_{-i},s')[R_i(s,a_i,\boldsymbol{a}_{-i})+\gamma V_i(s')]\tag{4}$
同样，智能体 $i$ 的最优策略也依赖其他智能体的策略
$\pi_i^*(s,a_i,\boldsymbol{\pi}_{-i})=\text{argmax}_{\pi_i}V_i^{(\pi,\boldsymbol{\pi}_{-i})}(s)=\\\text{argmax}_{\pi_i}\sum_{\boldsymbol{a}\in\mathcal{A}}\pi_i(s,a_i)\boldsymbol{\pi}_{-i}(s,\boldsymbol{a}_{-i})\sum_{s'\in\mathcal{S}}\mathcal{T}(s,a_i,\boldsymbol{a}_{-i},s')[R_i(s,a_i,\boldsymbol{a}_{-i})+\gamma V_i^{(\pi,\boldsymbol{\pi}_{-i})}(s')]\tag{5}$
其他智能体的联合策略 $\boldsymbol{\pi}_{-i}(s,\boldsymbol{a}_{-i})$ 可以是非平稳的，一些具有学习能力的对手的策略会随着时间发生改变。

Littman研究了马尔可夫博弈中强化学习算法学习联合动作时的收敛性，得出的结论是：在对抗环境下（零和博弈），针对任意对手都可以得到一个最优玩法，比如Minimax Q-learning。在合作条件下(在一些需要合作的游戏中，所有智能体共享相同的奖励函数)，需要做出很强的假设才能收敛到最优行为，比如Nash Q-learning以及Friend-or-Foe Q-learning。其他类型的环境下，暂未调研到有value-based RL算法能保证收敛性。

最近的MDRL研究更强调规模而不是那么强调收敛性了。2018年Srinivasan发表文章指出了AC算法与遗憾最小算法之间的联系，进而不完全信息零和博弈条件下独立RL算法的收敛性有了保证。这一结果导出了另外一个叫做Exploitability Descent的算法。

对多智能体收敛性感兴趣的可以看这些文章*****。关于action shadowing, curse of dimensionality, and multiagent credit assignment就不在这篇综述的讨论范围之内了。现在给出MAL一些特定领域的综述：博弈论与多智能体强化学习看这些xx，合作场景看这些xx ，多智能体动态进化学习看这些xx，非平稳环境下的的看这个x，agents modeling agents看这些xx，MARL中的迁移学习看这些xx。
3.2 MDRL的几个类型
根据以前的这些综述，总结出四种类型的工作：

Analysis of emergent behaviors:主要将单智能体DRL的算法应用到MAL场景，观察是否会出现新的行为（比如学会了合作、竞争或者产生了语言）。

Learning communication:智能体通过学习通信协议来解决合作任务。

Learning cooperation:智能体在不完全观测条件下学习如何合作。这里特指无通信下的合作场景。

Agents modeling agents:对其他智能体进行建模推断来完成任务。

3.3 Emergent behaviors

在MAL场景下使用DRL看会出现什么新的行为，比如是否会产生合作或者竞争。Tampuu用两个独立的DQN agent玩Pong这个游戏。Lerer 和Peysakhovich用DRL扩展TFT策略，理论和实验表明这样可以保持合作。Self-play这个概念有点意思，因为这类博弈问题往往都可以收敛，现在已经称为RL和MAL的一个标准技巧。self-play有点不稳定定，智能体忘记以前的知识，Leibo提出了Malthusian强化学习将self-play扩展为population dynamics。这种可以看做社区协同进化的方法，结果表明这种方法可以相比于拥有内动力的独立智能体，可以更好的避免陷入局部最优。这种方法的局限性在于没有与state-of-the -art的进化或者基因算法做对比。这篇文章使用进化策略解决强化学习问题。进化策略也被用于求解近似纳什均衡。

Bansal在MuJoCo物理仿真环境中探索会有什么新的合作或者竞争行为产生。他们使用PPO训练独立的智能体并且做了两个新的工作来处理MAL相关的问题。第一，使用密集奖励叫做exploration reward让agents学会基本的（非竞争）的行为，这种奖励会随着时间逐渐消失取而代之的是逐渐增大的环境奖励（竞争性）权重。Exploration Reward早先的一些机器人和单智能体研究中提出的，用来给出密集的奖励从而提高样本效率。在所智能体场景下，密集奖励可以在训练的初始阶段增加随机动作产生正奖励的概率。第二，对手采样，维持了一个对吼版本池用来采样对手，而不是使用最新的版本。

Raghu研究了DRL(DQN，A2C，PPO)在一些列两个玩家零和且难度可调的游戏（Erdos-Selfridge-Spencer）中的表现。在不同难度算法表现出了广泛的适应能力。

Lazaridou提出了基于多智能体通信的语言学习模型。里面的智能体都用前馈神经网络表示，需要使用“新的语言”来解决相应的任务。任务被形式化建模为一个“信号模型”，里面包含两个agents，一个sender，一个receiver，获得一些图片。sender被告知图片里面有一张是target image，sender从图片里面选一张发给receiver。只有当receiver识别出target image后，sender和receiver同时获得奖励。结果表明基于智能体在视觉领域可以合作。为了分析这里面的语言属性(…回头看看这篇文章，居然说可以产生新的语言，而且人类还能看得懂？)
Mordatch and Abbeel也研究了出现语言的问题。

3.4 Learning communication

通信是多智能体交互过程中出现的重要特征，特别是智能体之间需要合作，而每个智能体又只能获得部分观测，此时环境中agents需要通过交流来更好的达成一个共同目标。
Foerster等人2016年在NIPS上提出Reinforced Inter-Agent Learning（RIAL）和Differentiable Inter-Agent Learning 是两种使用深度网络学习通信的算法(PS:Foerster写了很多DRML的文章，被很多其他重要文献引用)。都使用神经网络来输出智能体的Q值以及需要传给其他智能体的消息。RIAL是基于深度循环Q网络(DRQN )并且使用参数共享的概念，比如使用一个网络，这个网络的参数与所有智能体进行共享。DIAL则在学习阶段通过通信信道(下图中的DRU)传递梯度，并且在执行过程中消息被离散化然后映射到通信动作集合。（这里面有一个概念，叫做centralised learning and decentralised excution。RIAL在excution阶段每个智能体使用copy of the learned netwiork）。

图2 CommNet。RIAL(a)里面，Q网络的输出值输入到动作选择器中，选择器选择应对环境的动作以及给其他智能体的消息。红色箭头标出的梯度使用DQN进行计算，并且只流过单个智能体。DIAL(b)消息m^a_t通过动作选择器旁边的DRU输入到另一个智能体的C-network，因此梯度可以在不同智能体之间进行传递。

内存驱动(Memory Driven, MD)通信是在Multi-Agent Deep Deterministic Policy Gradient(MADDPG )的基础上提出的。在MD-MADDPG 中，智能体使用共享内存作为通信信道：在采取动作之前，智能体首先读取内存，然后写入反应。这种情况下，智能体的策略和它的观测以及对内存集合的解释有关。实验使用了两个智能体进行合作完成任务，发现在相对简单的任务里面智能体会在任务快要结束的时候显著的降低内存的活动，因为环境变化较小；而在复杂环境下，内存的使用快速变化，因为此时会出现许多子任务。

Dropout 是一种神经网络用于防止过拟合的技术（在监督学习中，过拟合指的是算法只在特定数据集上有很好的性能而没有泛化能力），它在训练的时候随机取消一部分神经元的活性。Kim等人在多智能体环境下提出了一个相似的方法，即智能体可以直接使用消息进行通信，在训练阶段其他智能体的消息会随机丢失，作者吧这种方法叫做Message-Dropout MADDPG算法。这种方法可以在完全或者部分观测的条件下使用。实验结果表明，合理选择信息丢失率，所提出的方法可以显著的提高训练速度以及所学习到的策略的鲁棒性（通过引入通信错误率）。这种能力在MDRL中十分重要，因为这样的智能体值仿真或者受控的环境中训练好之后，在迁移到更加实际的环境中不会那么脆弱。

与RIAL和DIAL使用离散通信信道不同的是，CommNet 使用的是连续的矢量信道。智能体通过这样的信道接收所有其他智能体传输的信号的和。作者设定了一个完全合作的场景，并且训练一个网络用于所有的智能体。相比于之前的研究，CommNet有两个突出的特点：一是在每个时间步允许多个通信环，二是允许智能体动态变化，比如智能体加入和退出环境。（CommNet，Facebook AI Research 提出的，后面很多论文都拿它对比）BiCNet(Multiagent Bidirectionally Coordinated Network) 方法中的通信发生在隐藏空间(如隐藏层)。它也使用参数共享，但使用双向循环神经网络来建模动actor和critic网络(RL中AC是很重要的一类算法，不了解的可回到本文第二节了解一下)。需要指出的是，BiCNet中的智能体不会显式的共享信息，因此可以认为它是一个学习如何合作的方法。

学习如何通信是MDRL领域的一个活跃的研究方向，这里面还有很多问题没有解决，感兴趣的读者可以读一读Lowe等人最近的研究，里面会讨论一些常见的坑(同时也会教你如何避免踩雷)同时也会对多智能体的通信进行一些度量。

3.5 Learning cooperation

尽管研究多智能体中显式通信问题最近比较热，但是依然有很多合作场景下的研究并不涉及通信，下面做这方面的介绍。

Foester等人研究了独立的使用Q-learning进行学习的智能体简单场景下的合作问题，这一研究中使用了标准的DQN结构和经验重放(ER)缓存。但是使用ER要求数据满足一定的假设条件，而这些条件在多智能体世界中往往时候满足不了的。多智能体环境的动态特性使得产生的数据放到ERbuffer中之后，不在能够反映出当前的规律，从而变成了过时的经验。他们给出的解决方法是给经验对加入信息来帮助确定从经验池中所采样数据的“年龄”。与之相关的有两种方法，Multiagent Importance Sampling 和Multiagent Fingerprints 。

Gupta等人研究了部分观测且无通信条件下的多智能体合作问题。核心思想是学习一个全局共享的网络在执行的时候可以有不同的表现（Foerster也提出过类似的概念）。Lenient-DQN (LDQN) 在对经验池进行采样的时候，使用leniency condition来决定是否使用这一样本。

Decentralized-Hysteretic Deep Recurrent Q-Networks (DEC-HDRQNs) 是一种用来促进独立(无通信)智能体之前合作的方法。作者使用了一种叫做策略蒸馏的方法来提高模型泛化能力。DEC-HDRQN在学习和执行的时候都是完全decentralized。

Lowe等人指出，在多智能体环境下使用标准的策略梯度方法会产生比较高的方差且表现很差。原因在于智能体的奖励依赖于其他的智能体，方差会随着智能体数量呈指数增加。为此，作者提出了Multi-Agent Deep Deterministic Policy Gradient (MADDPG)，这是一种基于DDPG的算法，在训练的时候会针对每个之智能体训练一个centralized critic且使用所有智能体的策略作为输入。这样一来，去掉了多智能体同时学习造成的非平稳性，进而降低了方差。

Counterfactual Multi-Agent Policy Gradients (COMA) 是另一个基于策略梯度的方法，其研究的基本设定是完全中心化(fully centralized)和做智能体贡献分配(multiagent assignment credit) 。多智能体合作场景下如果偶有智能体共享一个全局奖励，此时该如何计算每个智能体的贡献？作者给出的解决办法是计算一个反推基线(counterfactual baseline)，即将每个智能体边缘化(marginalized)并保持其他智能体动作不变。这样就可以计算一个优势函数来比较当前的Q值和反推出来的基线。一方面，fully centralized approaches do not suffer from non-stationarity but have constrained scalability。另一方面，independent learning agents are better suited to scale but suffer from non-stationarity issues。因此有人使用混合的方法，学习一个centralized同时考虑Q值的值函数。值分解网络(Value Decomposition Networks)将团队的值函数分解为各自值函数相加。QMIX 是一种基于因式分解的方法，不过它使用的是一个叫做mixing network来非线性地组合局部值。分解的方法虽然在实验中都取得了较好的结果，但是仍然是一个研究中的问题，还有很多问题没解决，比如如何学习分解因子等。

3.6 Agents modeling agents

通过建模来推断其他智能体的行为是智能体的一个重要能力。Deep Reinforcement Opponent Network(DRON) 是较早的使用深度学习进行智能体建模的研究。基本的想法是使用两个网络，一个估计Q值，另一个学习对手的策略的表征。此外，作者使用了几个专家网络一起来预测Q值，实际的考虑是专家网络可以捕捉对手的策略。

4. 从RL, MAL到MDRL

4.1. MDRL的几个例子

有时候很多想法很早就被提出了，但是后来的研究者往往不会再去审视这些研究，就算后来用了相近的思路，可能存在不引用相关旧文献的情况。因此有必要罗列一些阶段性的比较突出的研究成果。

Dealing with non-stationarity in independent learners.通常认为从相互独立的智能视角来看，环境是非平稳的。Hyper-Q 将其他智能体的策略和信息放到状态的表示中，有效的将问题变为平稳问题。

Multiagent credit assignment.在合作场景下，需要给每个智能体分配局部或者全局的奖励。然而局部奖励常常难以获取，因此往往使用全局奖励。这就引入了贡献分配的问题：一个智能体的某个动作对于整个系统的贡献怎么去衡量？Agogino等人考虑了如何评估以下两个方面的问题：1)奖励如何在不同状态下促进智能体合作？2)单个智能体学习最大化奖励的过程是否足够简单？
Multitask learning.多任务学习要求智能体能在多个相关的任务中执行。蒸馏(distillation)，可以简单理解为将大型模型的知识迁移到小模型上，这一概念是从监督学习和模型压缩中引入的。受该概念启发，有学者将policy distillation 扩展到DRL领域。Policy distillation就是训练一个较小的网络来融合多个特定问题的策略而形成一个整体策略。Auxiliary tasks.考虑到环境中包含各种各样的训练信息（如像素的变化等），Jaderberg等提出了auxiliary这一术语。
Experience replay.
Double estimators.

4.2. 一些经验(Lessons learned)

Experience replay buffer in MDRL
Centralized learning and decentralized excution
Parameter sharing
Recurrent networks
Overfitting in MAL

4.3. MDRL研究的基线(Benchmarks for MDRL)

主要是一些实验环境：
Fully Cooperative Multiagent Object Transporation Problems (CMOTPs)
The Apprentice Firemen Game
Pommerman
Starcraft Multiagent Challenge
The Multi-Agent Reinforcement Learning in Malmo (MARLO)
Hanabi is a cooperative multiplayer card game (two to ve players)
Arena
MuJoCo Multiagent Soccer
Neural MMO

4.4. MDRL的挑战(challenges in MDRL)

主要是吐槽了一下：
实现起来困难（复现起来难度大）、超参数难调
太吃计算资源（联想到最近华为怼DeepMind，说DeepMind发表的Nature论文在现有计算条件下无法实现。。。）
貌似和DL被吐槽的地方差不多。。。

4.5. 待解决的问题(Open questions)

基本上都是一些比较粗略的问题：
On the challenge of sparse and delayed rewards.
On the role of self-play
On the challenge of the combinatorial nature of MDRL

5. 总结

原文的总结就不翻译了，说说自己的读后感。看完觉得这篇文列出了386篇文献，最新的参考文献为2019年发表，应该是综述里面比较新的了。文章从RL和MAL两个领域进行了梳理，RL->DRL->MDRL。对DRL的概括为四个主要的类型，虽然是粗略的分类，但是还是有助于理解目前很多文章的侧重点。可能包含的内容有点多，对有些文章的概述我个人不太能看明白，需要读原文，这些就没有翻译。不过，写这样一篇综述的工作量应该很大，上一个版本叫做“Is multiagent deep reinforcement learning the answer or the question? A brief survey”，感谢作者！

强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
wend看源码-OpenManus 找了一圈尾巴 #开源项目源码学习大模型 Agent AI Agent
前言作为曾借势Manus热度推出的开源项目，OpenManus常被称为“开源版Manus”，但需明确的是，其实际定位更接近Demo级实现。相比之下，Manus作为智能体领域的头部方案，不仅成为AIAgent榜单评估的标杆，更已形成成熟的商业化能力。尽管二者在产品成熟度上存在差距，但OpenManus的核心设计思想与Manus并无本质差异。对于希望理解多智能体框架构建逻辑的开发者而言，该项目的代码实
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
AutoGen-AgentChat-7-GraphFlow工作流
importosfromdotenvimportload_dotenvload_dotenv()TrueGraphFlow（工作流)在本节中，你将学习如何使用（简称“flow”）创建多智能体工作流。它采用结构化执行，并精确控制智能体如何交互以完成任务。GraphFlow我们将首先向您展示如何创建和运行流程。然后，我们将解释如何观察和调试流程行为，并讨论管理执行的重要操作。AutoGenAgentC
SpringAIAlibaba正式版发布！小付爱coding ai
SpringAIAlibaba正式版发布！SpringAIAlibaba到底是个啥？没错！它还是以SpringAI为基础，深度集成阿里自己的百炼平台：支持ChatBot、工作流、多智能体应用开发模式的AI框架。简单来说就是将调用大模型抽象成一个API，可以直接调用来实现，只不过可选参数更多它的核心能力：抽象+简化+扩展SpringAIAlibaba最大的价值在于：它把调用大模型这件事，抽象成了一个
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
百度AI工具Comate AI IDE正式发布，一个前端开发者的AI编程工具进化论蜂酷科技资讯人工智能 ide AI编程
6月23日百度AIDAY正式发布ComateAIIDE，对我这个浸淫前端开发五年的老兵而言，这次ComateAIIDE发布对我之后项目开发意义重大。原先我仅将文心快码当成单纯编程智能体使用，提需求，复制代码，然后再去其他工具中完成全栈开发，如今随着ComateAIIDE落地，意味着我拥有了一个集多模态交互、多智能体协同于一体的全流程开发超级搭档。从输入自然语言描述、粘贴Figma设计稿链接，到生成
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
从被动检索到主动思考：Naive RAG 到 Agentic RAG 的架构演进与关键技术解析一休哥助手人工智能架构 RAG
摘要随着大语言模型（LLMs）的广泛应用，检索增强生成（Retrieval-AugmentedGeneration,RAG）技术已成为解决模型知识滞后与幻觉问题的核心方案。本文深入剖析从基础NaiveRAG到新一代AgenticRAG的架构演进路径，聚焦关键技术创新点（如递归检索、自适应查询改写、工具集成、多智能体协作），并通过架构图对比与案例分析，揭示其在复杂任务处理中的范式转变。全文超过500
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默