论文笔记-连续HVAC控制的无模型强化学习算法的实验评估

论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第1张图片

本文在一个模拟的数据中心中对四种actor-critic算法进行了实验评估。性能评估基于它们在提高能效的同时保持热稳定性的能力,以及它们对天气动态的适应性。与在EnergyPlus中实施的基于模型的控制器相比,所有应用的算法都可以通过同时将每小时平均温度保持在所需范围内来减少至少10%的能耗。

一、引言

大多数当前住宅建筑的HVAC管理系统使用经典算法,例如基于规则的控制器或比例、积分和微分控制器(PID)。模型预测控制(MPC)将这些挑战表述为约束优化问题,然而,它只能与精确和详细的模型一起正常工作,需要开发和校准方面的专业知识,为不同类型的建筑开发一个通用的建筑能源管理模型对MPC的广泛应用提出了严峻的挑战。

强化学习(RL)控制器已经开始在HVAC管理系统中得到越来越多的评估,最广泛使用的方法是创建一个模拟环境,以生成训练算法所需的必要数据,然后将控制器复制到一个实体建筑中,并在那里继续训练。RL的进一步优点是算法的操作不需要天气或价格预测,因为它们可以使用训练数据来学习。一旦训练完成,该操作的计算成本比MPC低得多。然而,RL有其自身的局限性,主要是数据效率,这意味着它需要大量的数据进行训练。

本文中,作者重点讨论了无模型算法的评估,但也提到了MPC和RL可以结合到基于模型的RL中,以学习预测控制的未来状态。主要贡献为:1)进行实验来评估和比较RL算法在开源基准项目中在能耗和室内气候管理方面的性能。2)进行实验来研究算法对天气动态的适应性。3)证明了在能量消耗和热稳定性之间存在一种平衡。4)分析了算法的数据效率,并证明SAC能够用比最先进的基于策略的算法少得多的数据来学习任务,同时享受稳定的学习过程。

二、领域研究成果

RL学习在建筑能源控制领域有很大的应用。Q-learning算法要求动作空间必须被离散化。神经网络可以拟合Q函数。DQN具有简单性和数据效率,但是动作空间需要被离散化。

为了处理连续的动作空间,学者采用critic-actor的方法,连续控制算法DDPG优于DQN和Q-learning,但难以训练对超参数敏感。基于策略的方法,PPO稳定而且训练速度快,但需要大量的数据来训练模型。SAC被应用于多智能体领域,但并不突出。

三、HVAC控制

state:
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第2张图片Action:

论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第3张图片
reward:
在这里插入图片描述
其中, R R R是当温度在给定范围内的奖励。
在这里插入图片描述 T t a r g e t T_{target} Ttarget是目标温度:
在这里插入图片描述
奖励函数的图像:
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第4张图片使用以下两个指标来评估算法的性能:节能和热稳定性。理想情况下,应接近23.5°c的目标温度,标准偏差尽可能小。
实验将集中于对以下四种算法的评估: S A C SAC SAC T D 3 TD3 TD3 T R P O TRPO TRPO P P O PPO PPO

四、实验

本章进行了一系列的实验来证明算法对于变化的天气动态和不同的超参数的鲁棒性。

4.1 对天气的鲁棒性

使用来自一个地点(赫尔辛基、柏林或旧金山)的天气数据对算法进行20个episode的训练,其中我们对每一episode使用相同的天气数据。然后在不同的地点用哥本哈根的天气数据对算法进行评估。
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第5张图片
结论是,最好使用与部署控制器的地点具有相似天气条件的地点的数据。

受第一个实验结果的激励,执行了第二个实验,询问使用来自不同位置的天气文件是否有助于提高代理的健壮性。
例如,第一集我们使用奥斯陆的数据,第二年使用卑尔根的数据,假设它们的天气条件与哥本哈根相似。我们也用哥本哈根的天气数据来评估算法:
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第6张图片表5显示了结果。我们可以观察到,在节能和热稳定性方面,使用不同位置的训练可以显著提高测试环境中的offpolicy算法的性能。

4.2 奖励函数的敏感度

4.3 热稳定性和节能

探讨SAC和TD3的温度控制和节能效果:
SAC:
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第7张图片
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第8张图片
TD3:
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第9张图片
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估_第10张图片

4.4 数据效率分析

4.6 未来研究方向

(1)分布式RL,这将改进对预期回报的估计,从而提高安全性。
(2)不仅考虑当前状态,还考虑之前的序列,RNN。
(3)模仿学习,使用MPC来预训练模型。

挑战:
RL对HVAC控制提出的许多主要挑战并不仅限于这种设置。效率、鲁棒性、安全性、可扩展性、可解释性、奖励函数设计以及从模拟到现实世界部署的转换也一直是其他基于人工智能的领域(如机器人)中重要研究工作的主题。

五、结论

本文讨论了几个解决建筑能源控制问题的几类RL算法,并在Energyplus环境中对算法进行了测评。目标是降低能耗,同时将室内温度保持在预先定义的范围内。解决了关于基于RL的控制器的真实世界部署的技术问题,包括数据效率和对不同天气条件和奖励函数的鲁棒性。

最终的结果,所有算法都能够保持室内温度,同时相对于基于模型的控制器降低13%以上的能耗。并且具有很好的对天气和超参数的鲁棒性。

你可能感兴趣的:(RL,论文阅读)