DeepMind用AI控制核聚变反应登上《自然》

论文解析 | Magnetic control of tokamak plasmas through deep reinforcement learning (2022)

导读

论文提出了 "人工智能研究如何造福人类 "的问题。使用人工智能来实现安全、可靠和可扩展的聚变能源部署,可以为解决气候变化的压力问题做出贡献。这是人工智能技术在工程方面的一个极其有趣的应用。

1 引言

使用磁约束的核聚变,特别是在托卡马克配置中,是实现可持续能源的一个有希望的途径。一个核心挑战是如何在托卡马克血管内塑造和维持一个高温等离子体,这需要使用磁执行器线圈进行高维、高频、闭环控制。在这项工作中,我们为托卡马克磁性控制器设计引入了一个以前没有描述过的架构,它可以自主地学习指挥全套控制线圈。这个架构满足了在高层次上指定的控制目标,同时满足了物理和操作约束。

托卡马克是用于核聚变研究的环形装置,是产生可持续电力的主要候选者。限制托卡马克内的每个配置需要设计一个反馈控制器,该控制器可以通过精确控制与等离子体磁耦合的几个线圈来操纵磁场,以实现所需的等离子体电流、位置和形状,这个问题被称为托卡马克磁控制问题。通过使用强化学习(RL)来生成非线性反馈控制器,使一种全新的控制器设计方法成为可能。

在这项工作中,我们提出了一个RL设计的磁性控制器,并通过实验验证了它在托卡马克上的性能。控制策略是通过与托卡马克模拟器的互动来学习的,并被证明能够直接在硬件上进行托卡马克磁控制,成功地弥补了 "模拟与现实 "的差距。这使得从工程驱动的预设计状态的控制到人工智能驱动的操作者指定的目标优化有了根本的转变。

2 学习控制和训练架构

我们的架构,是一种设计托卡马克磁约束控制器的灵活方法。该方法有三个主要阶段。首先,设计者为实验指定目标,可能伴随着时间变化的控制目标。其次,一个深度RL算法与托卡马克模拟器进行交互,找到一个接近最优的控制策略来满足指定的目标。第三,以神经网络表示的控制策略直接在托卡马克硬件上实时运行("零射击")。

DeepMind用AI控制核聚变反应登上《自然》_第1张图片

3 基本能力演示

我们在TCV的真实世界实验中展示了我们的架构对控制目标的能力。我们首先展示了对等离子体平衡的基本品质的精确控制。然后,我们用复杂的、时间变化的目标和物理上相关的等离子体配置来控制广泛的平衡。最后,我们展示了对容器中有几个等离子体 "液滴 "的配置的控制。

DeepMind用AI控制核聚变反应登上《自然》_第2张图片

图中描述了控制策略的性能。在初始有限阶段(0.1秒至0.45秒),I p均方根误差(RMSE)为0.71 kA(目标值的0.59%),形状RMSE为0.78 cm(血管半宽的3%)。在分流阶段(0.55秒至0.8秒),I p和形状RMSE分别为0.28 kA和0.53 cm(0.2%和2.1%),在整个窗口(0.1 s至1.0 s)产生的RMSE为0.62 kA和0.75 cm(0.47%和2.9%)。这表明我们的RL架构能够在放电实验的所有相关阶段实现准确的等离子体控制。

4 控制演示

我们接下来展示我们的架构为科学研究产生复杂配置的能力。每个演示都有自己的时间变化的目标,但除此之外,使用相同的架构设置来生成控制策略,包括训练和环境配置,只需对奖励函数稍作调整。测试了通过中性束注入的辅助加热来进入 "H模式",这对于有更高的能量约束时间是可取的,但对等离子体特性造成了明显的变化。在拟议的ITER配置的基础上提供了一个时间变化的轨迹,该配置使用这种辅助加热。本文的目标是一个三角度为-0.8的分流配置,并且在两个角上都有X点。本文成功地实现了这种配置,如图所示。

DeepMind用AI控制核聚变反应登上《自然》_第3张图片

总的来说,这些实验证明了探索新配置的便利性,证明了我们的架构有能力在高性能放电中运行,并证实了其能力的广度。

5 新的多域等离子体演示

本文最后展示了架构在探索新的等离子体配置方面的能力。测试对 "液滴 "的控制,这种配置中两个独立的等离子体同时存在于容器内。现有的方法有可能稳定这种液滴。尽管如此,还需要大量的投资来开发前馈线圈电流编程,实现实时估计,调整控制器增益,并在等离子体创建后成功控制。

DeepMind用AI控制核聚变反应登上《自然》_第4张图片

如图所示,该架构能够成功地稳定整个200毫秒控制窗口中的液滴,并提高每个域内的电流。这突出了一个通用的、基于学习的控制架构的优势,以适应对以前未知配置的控制。

6 总结

本文提出了一个在托卡马克上进行等离子体磁约束的新范式。我们的控制设计实现了社区对基于机器学习的控制方法的许多希望,包括高性能、对不确定操作条件的鲁棒性、直观的目标规范和前所未有的多功能性。这一成就需要通过科学和工程的进步来克服能力和基础设施上的差距:一个准确的、数值上稳健的模拟器;一个在模拟精度和计算复杂性之间的知情权衡;一个针对特定硬件控制进行调整的传感器和执行器模型;现实的变化训练期间的操作条件;一个可扩展到高维问题的高数据效率的RL算法;一个具有表达式批评但快速评估策略的非对称学习设置;一个将神经网络编译成实时能力的代码并部署在托卡马克数字控制系统上的过程。这导致了成功的硬件实验,这些实验与先进的形状控制一起展示了基本能力,而不需要对工厂进行微调。它还表明,自由边界平衡演化模型有足够的保真度来开发可转移的控制器,为使用这种方法来测试未来设备的控制提供了理由。可以进一步发展我们的架构,通过分析非线性动力学来量化其鲁棒性,并通过增加数据的重复使用和多保真学习来减少训练时间。更广泛地说,该方法可以通过联合优化等离子体形状、传感、驱动、壁面设计、热负荷和磁性控制器来发现新的反应堆设计,使整体性能最大化。

福利tips:

现在使用|棵岩阅读|,填入激活码2T5LA8,可领取3日体验会员。

棵岩阅读 - 专为科研打造的阅读和知识发现工具

由棵岩翻译支持

power by keyan translate

你可能感兴趣的:(人工智能)