rockray21

MADRL（多智能体深度强化学习）

《多Agent深度强化学习综述》
Is multiagent deep reinforcement learning the answer or the question? A brief survey
- 对多智能体强化学习算法的分类方法，将 MARL 算法分为以下四类：
- - emergent behaviors
  - Learning communication
  - Learning cooperation
  - Agents modeling
- 连接MAL和MDRL
- 开放问题

《多Agent深度强化学习综述》

从多 agent 深度强化学习中通信过程的角度对现有的多 agent 深度强化学习算法进行归纳，将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策三种主流形式。

当前 DRL 的两个主要方向 – 深度 Q 网络和深度策略梯度。一种是用神经网络函数近似Q网络，另一种是将状态空间映射到动作空间的函数或者分布，策略优化的目标是寻找最优的策略映射。

两者针对的过程不同

连续动作空间的策略梯度算法分为随机策略梯度算法和深度确定策略梯度算法。

多智能体任务中环境是动态性的，一般建模为部分可观测MDP环境（POMDP）

协作多智能体分为两类，单个学习者和多个学习者。

全通信集中决策：联合感知，中心决策（神经网络内部通信）
全通信自主决策：联合感知，独立决策（神经网络之前通信）
欠通信自主决策：无信息交互，独立决策（一般用循环神经网络）

全通信集中决策可转换为单智能体问题，适用于智能体数量少且固定，动作空间小的情况。
在全通信集中决策架构中，现有研究方法主要集中在隐藏层信息池化共享通信和双向 RNN 通信等两种手段，通过神经网络的隐藏层间信息传递保证全通信条件下 agent 间的协商。

难以设计合适的通信协议——>利用双向LSTM自行学习通信协议
不合适的奖励——>基于全局奖赏的值分解网络
主-从多智能体架构（教练和球员）

全通信自主决策架构只需在输入端进行通信，将信息进行本地融合，自主的完成决策过程。
一种方式是自适应的端到端的通信协议学习算法，将通信定义为一组动作。根据通信动作的连续性，将决策网络的梯度更新方式分为增强和可微两类。

针对全通信的自主决策结构，他们设计了 AC-CNet 架构，对局部状态进行嵌入编码，之后利用预定义/自学习通信协议对所有局部状态编码进行联合编码，同待决策 agent 的局部状态结合一同作为决策输入，产生动作。

预定义通信协议在部分环境中不可用——>将通信定义为一组动作
对局部状态进行嵌入编码
个体奖赏带来的 “囚徒困境”——>采用联合动作评估方法

欠通信自主决策中强化学习任务面临着环境非平稳性的问题。
解决方法一：忽略。采用分散滞后深度 RNN 的架构，克服环境非平稳带来的值估计偏差。
解决方法二：改进replaybuffer。记录其余agent的动态变化信息。
解决方法三：自主决策，整体评价。
解决方法四：分层，将 agent 的动作分为宏观和一般两类动作
解决方法五：对对手（包括己方其他）进行建模
解决方法六：改进信用分配方式
解决方法七：同质智能体共享参数

多智能体实验平台：
1 DeepMind 和暴雪公司合作，开发了一个基于星际争霸 II 游戏的强化学习平台 SC2LE
python接口、minigame

2 上海交通大学开发了一种支持多 agent 强化学习研究和发展的 MAgent 平台该平台聚焦含成千上万 agent 的任务和应用
开源：https://github.com/geek-ai/MAgent

3 Brodeur 等人 [79] 提出了一个面向人工 agent的家庭多模态环境（HoME），在逼真的环境下，从视觉、音频、语义、物理以及与对象和其他 agent的交互等方面进行学习.
HoME 侧重于室内 3D环境下的图像研究，利用该平台进行多 agent 研究的学者较少.

4 Facebook AI 研究室提出一个面向 RTS游戏的广泛的、轻量级和灵活的多 Agent 强化学习平台 ELF.
C/C++ python 该平台主要为两人对战

关键问题及展望：
如何构建合适的模型能够更加准确的描述 MAS
总体样本数量依然有限，数据效率低
DRL 训练通常面临着对环境过拟合的问题，而 MADRL 则面临着对对手和环境的双重过拟合问题

1 多 agent 训练要素研究
对抗学习架构（alphazero）
将 DRL 策略和实证博弈论分析进行混合，计算策略选择的元策略

2 样本增强技术研究
增强生成对抗网络利用状态 - 行为与后继状态 - 奖赏之间的关系提高由 GAN 生成的样本的质量
将基于模型的和无模型的方法结合。

在 DRL 研究中，无模型方法数据利用低效，仅仅使用了转移中的奖赏信号，忽视了样本的转移过程；基于模型的方法有较高的数据效率，但所获得的策略往往不是最优解.

3 鲁棒性研究
在 MAS 中，仿真环境同现实环境的差距巨大，这一困境导致在仿真环境中的策略学习的结果难以迁移；另外，即使策略的学习样本来自于现实环境，学习数据的不足也使得强化学习难以收敛。

增加扰动以增加鲁棒性
迁移学习（目前没有针对不同agent进行迁移的解决方案）

针对agent会消失的场景场景，是将每个可能消失/产生的 agent单独建模，或者利用参数共享。（针对异步通信、较大规模也没有相应的解决方案）

4 对手建模研究
对对手策略进行推断
利用网络对对手策略进行学习

在上述学习算法中往往假设知晓对手的相关域知识，如可正确描述对手观测的属性和特征

Is multiagent deep reinforcement learning the answer or the question? A brief survey

AAMAS (International Conference on Autonomous Agents and Multiagent Systems),属于CCF推荐学术会议中人工智能B类的会议

参考内容：博士万字总结：https://cloud.tencent.com/developer/article/1618396

首先，本文提供了当前多主体深度强化学习(MDRL)文献的清晰概述。其次，它提供了补充这一新兴领域的指导方针，方法是(一)展示DRL和多智能体学习的方法和算法如何帮助解决MDRL的问题，以及(二)提供从这些工作中吸取的一般经验教训。

深度强化学习(DRL)，其中深度神经网络被训练来逼近最优策略或价值函数，其中泛化的承诺预期由深度神经网络(作为函数逼近器)的表示能力来传递。

目前强化学习主要的几个分类：
Q学习
蒙特卡洛策略梯度
基于值函数的方法
策略梯度方法

对多智能体强化学习算法的分类方法，将 MARL 算法分为以下四类：

Analysis of emergent behaviors（行为分析）
将DRL算法应用与多智能体环境中
Learning communication（通信学习）
在MAL中没有充分探讨
Learning cooperation（协作学习）
历史悠久，多从MAL方法扩展到MDRL环境
Agents modeling agents（智能体建模）
为agent建模不仅有助于合作，而且有助于为对手建模，推断隐藏目标，以及解释其他agent的学习行为。

emergent behaviors

行为分析类别的算法主要是将单智能体强化学习算法（SARL）直接应用到多智能体环境之中，每个智能体之间相互独立，遵循 Independent Q-Learning 的算法思路

Multiagent cooperation and competition with deep reinforcement learning[53]

作者为了全面的观察将 DQN 应用到多智能体环境下的各方面表现，通过设计回报函数的方式设计了完全协作环境、完全竞争环境以及非完全协作/竞争环境。具体回报函数设计如下：

完全协作环境：一方失球，则两方均获得 -1 的回报
完全竞争环境：一方失球，该方获得 -1 的回报；对方获得 +1 的回报
非完全协作/竞争环境：一方失球，该方获得 -1 的回报；对方获得的回报
最终的实验结果表明，在完全协作环境中，智能体学到的策略是尽可能长时间的不失球；而在完全竞争环境中，智能体学到的是如何更好的得分（即让对方失球）。

从这个结果可以看出，在将 DQN 直接应用到多智能体环境中，也能够达到一个比较好的性能，即便 IQL 算法是一个十分简单的算法，没有办法处理环境非平稳问题，但是依旧是一个比较强的基准算法。

Multi-agent Reinforcement Learning in Sequential Social Dilemmas[54]

Emergent Complexity via Multi-Agent Competition[58]

Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games?[55]

Multi-Agent Cooperation and the Emergence of (Natural) Language[56]

Emergence of grounded compositional language in multi-agent populations[57]

Learning communication

属于这一类别的多智能体强化学习方法显式假设智能体之间存在信息的交互，并在训练过程中学习如何根据自身的局部观察来生成信息，或者来确定是否需要通信、与哪些智能体通信等等。在训练完毕后运行的过程中，需要显式依据其余智能体传递的信息来进行决策。

Learning to communicate with deep multi-agent reinforcement learning[59]
所有智能体共享一个全局的回报函数，所以是一个完全协作环境，每个智能体只拥有自己的局部观察。文中假设通信信道是离散的，即智能体之间只能能传递离散的信息（即 one-hot 向量）。

本文采用的是 CTDE 框架（即中心化训练去中心化执行），在训练时不对智能体之间的信息传递进行限制，甚至在训练时可以使用连续的信息。但是训练完毕之后运行时，智能体之间才进行真正的通信，并且该通信信道是离散（如果训练时是连续的，则在运行时要对信息进行离散化）的。

Reinforced Inter-Agent Learning (RIAL)
RIAL 算法使用了两个 Q-network，分别输出原始的动作以及离散的信息。RIAL 算法中 Q network 的输入不仅仅是局部观察，还包括上一时间步其余智能体传递过来的信息。禁用replay buffer。为了算法的可扩展性以及充分利用中心化学习的优势，RIAL 算法可以更改为每个智能体共享同一套模型参数，并且为了进一步对在任务中扮演不同觉得的智能体进行分辨，在 Q network 的输入中还可以额外加入智能体的索引号。

Differentiable Inter-Agent Learning (DIAL)
在中心化训练时，信息发送方的信息动作输出直接连接到信息接收方，并且为了能够实现端到端训练，此时的信息将不再是离散值而是连续值。训练完毕之后执行时，通过这个实值的正负进行 one-hot 离散化。

Learning Multiagent Communication with Backpropagation[60]

该框架中所有灰色模块部分的参数均是所有智能体共享的，

除此之外，文中还提出了两种对上述算法可以采取的改进方式：
可以对上图中间的结构加上 skip connection，类似于 ResNet。这样可以使得智能体在学习的过程中同时考虑局部信息以及全局信息
可以将灰色模块的网络结构换成 RNN-like，为了处理局部观察所带来的 POMDP 问题

Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games[61]

使用的是 DDPG 算法，并且考虑到算法在大规模多智能体环境下的可扩展性问题，智能体之间共享模型参数，并且算法假设每个智能体都拥有同样的全局观察（全局状态）
BiCNet 通过中间的 Bi-RNN 层进行智能体之间的通信。

我们可以采用虽然可以采用 Minimax Q-Learning 这样的算法来去解决，但是对于复杂的高维多智能体环境，前者基本无法处理。因而在本文中假设地方的 policy 是固定的（即敌方智能体遵循一个固定的策略，只有己方智能体的策略是不断更新的），那么我们就可以使用类似 DDPG 这样的算法来去解这样一个 MDP 问题。

BiCNet 中所有的智能体都拥有独立的回报函数以及 Q-network 以及 policy network，但这些 network 中部分参数是共享的。这些智能体一起在环境中进行数据采样，最后将所有的数据集中起来，更新他们的共享部分的参数。所以这样一看，将 BiCNet 和 MADDPG 相比较，其实就是共享 Q-network 以及 policy network 的拥有特定网络结构的 MADDPG？

Learning cooperation

此类工作并不显式地学习智能体之间的通信，而是将 multi-agent learning 领域的一些思想引入到 MARL 中。而这类方案又可以分为以下三个类别：

基于值函数的方法
基于值函数的方法
基于经验回放缓存的方法（增加稳定性）

Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning[62]

Lenient Multi-Agent Deep Reinforcement Learning[63]

Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability[64]
本文提出采用 ER 训练 DRQN 时应当采用如下方式，并提出了 concurrent experience replay trajectories 的概念。即每个智能体在独立训练自己的 Q-function 时，从 ER 中 sample 出来的数据需要从 episode 层面以及时间层面上对齐。

Weighted double deep multiagent reinforcement learning in stochastic cooperative environments [65]

Human-level performance in first-person multiplayer games with population-based deep reinforcement learning[66]

Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward[67]
本文提出的 VDN 方法的基本思想是，中心化地训练一个联合的 Q network，但是这个联合的网络是由所有智能体局部的 Q networks 加和得到，这样不仅可以通过中心化训练处理由于环境非平稳带来的问题，而且由于实际是在学习每个智能体的局部模型，因而解耦智能体之间复杂的相互关系。最后，由于训练完毕后每个智能体拥有只基于自己局部观察的 Q network，可以实现去中心化执行，即 VDN 遵循 CTDE 框架，并且解决的是 Dec-POMDP 问题。

QMIX - Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning[68]
QMIX 算法是 VDN 算法的后续工作，它的出发点是 VDN 做联合 Q-value 分解时只是进行简单的加和，这种做法会使得学到的局部 Q 函数表达能力有限，没有办法捕捉到智能体之间更复杂的相互关系，因而对 VDN 算法进行了修改。本文认为 VDN 提出的加和分解方式只是满足所提出约束的一个特例。

QMIX 使用了如下包含 agent network、mixing network 以及 hypernetworks 的架构，注意到，QMIX 由于 mixing network 是一个非线性网络的原因，其表达能力因而超过 VDN。

**COMA-Counterfactual Multi-Agent Policy Gradients[70] **
本文提出的算法 COMA 旨在解决 Dec-POMDP 问题中的 multi-agent credit assignment 问题，即多智能体信用分配问题。这个问题简单概括来说，由于 Dec-POMDP 问题中所有智能体共享同一个全局回报，因而每个智能体不知道自己的行为到底对这个全局回报产生了多大的影响，这就是多智能体信用分配问题。

COMA 与 MADDPG 在 actor network 上的不同之处在于前者使用的是 GRU 网络，为了更好的处理局部观察问题，但是后者使用的则是普通的 DNN。

COMA 使用的是 vanilla 的 actor-critic 方法，其核心之处在于引入了一个 counterfactual 的 baseline 函数。该方法通过比较智能体遵循当前 actor network 进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报，来解决多智能体信用分配问题。

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[71]

本文提出的 MADDPG 算法将 DDPG 算法扩展到多智能体环境中，MADDPG 算法假定每一个智能体拥有自己独立的 critic network 以及 actor network，并且假定每个智能体拥有自己独立的回报函数，这样 MADDPG 算法就可以同时解决协作环境、竞争环境以及混合环境下的多智能体问题。

另外，算法还进行了两点改进。其一，由于算法假设中心化训练每个智能体的 critic network 时，需要知晓所有智能体当前时间步的局部观察以及动作，本文认为知晓每个智能体的动作（即策略）是一个比较强的假设，因而提出了一个估计其余智能体 policy 的方法。具体来说，每个智能体均维护一个其余智能体 actor network 的估计。

另外，在多智能体环境中，本文认为训练出的针对每个智能体的 policy 容易对其余智能体过拟合，但是其余智能体的 policy 随着训练过程的进行是不断更新的，因而本文希望通过给每个智能体同时训练 [公式] 个 actor network 的方式，使得智能体对于其他智能体策略的变化更加鲁棒。具体来说，每个 episode 开始前，都从K 个 actor 中随机采样一个来进行训练，并且每个 actor 都有独立的 experience replay。

Agents modeling

Opponent modeling in deep reinforcement learning[72]

A Deep Policy Inference Q-Network for Multi-Agent Systems[74]

Modeling Others using Oneself in Multi-Agent Reinforcement Learning[73]

Deep Reinforcement Learning from Self-Play in Imperfect-Information Games[75]

A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning[69]

Learning with Opponent-Learning Awareness[76]

Machine Theory of Mind[77]

Bayes-ToMoP: A Fast Detection and Best Reponse Algorithm Towards Sophisticated Opponents[78]

连接MAL和MDRL

解决MDRL问题的富有成效的合作实例
处理独立学习者的非平稳性。将其他agent的混合策略当作状态输入。
多agent信用分配。COMA提出了一个基于agent贡献的优势函数。
MDRL的多任务学习。agent可以在几个相关的任务中发挥作用。
MDRL的辅助任务。环境包含各种可能的训练信号可以被视为伪奖励函数。

经验教训
在MDRL经验重放。在经验元组中添加有助于消除样本歧义的信息是许多工作中采用的解决方案。
集中学习，分散执行。在学习期间，可使用附加信息(状态、动作、奖励)，在执行期间，该信息被移除。
参数共享。
循环网络。记忆、分层。
整体政策。

开放问题

关于稀疏延迟奖励的挑战
1 先增加密集的中间奖励，逐步减少
2 手工设计奖励
3 分层优化内部奖励
4 用LSTM将稀疏奖励分配给早期状态

self-play的作用
1 增加多样性，即基于人口或基于抽样的方法，已经显示出良好的结果
2 计算量巨大，计算高效的问题没有解决

论MDRL组合性的挑战
1 MCTS结合搜索和DRL
2 搜索并行化

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

MADRL（多智能体深度强化学习）