作为世界上最大的发展中国家,中国“2030 碳达峰、2060 碳中和”的决心要求仅用 30 年从峰值降至零排放,远低于发达国家的60~70年时间,中国的中和斜率会远陡峭于欧美,减排速度要超出欧盟一倍,减排任务的艰巨程度史无前例。
能源活动产生的碳排放占我国二氧化碳排放总量的比重近90%,能源系统的碳减排对实现碳达峰和碳中和起着决定性作用。智慧能源作为能源企业降本增效以及助力“碳中和”的重要手段和开拓新业务的重要途径,在能源行业取得广泛共识。2020年,国资委下发《关于加快推进国有企业数字化转型工作的通知》,明确提出要“打造能源类企业数字化转型示范”,加快建设智慧电网等智能现场,实现能源企业全业务链协同创新、高效运营和价值提升。
此篇我们就来聊聊,数智化技术如何赋能能源数字化转型及智慧化应用?特别地,作为人工智能中最激动人心的领域之一的强化学习,在能源领域有哪些典型应用?效果又如何?
从行业特点来看,能源行业是资产密集型行业,具有设备价值高、产业链长、危险性高、 环保要求严的行业特征,从而面临设备管理不透明、工艺知识传承难、产业链上下游协同水平不高、安全生产压力大等行业痛点。与此同时,传统的能源企业正在面临负荷集成商等市场新进入者以及众多基于互联网生态成立的全新企业的挑战,能源消费者将前所未有地成为重塑市场格局的重要力量,如何整合服务能力,高效响应能源消费者需求将至关重要。
人工智能等数字技术与能源产业有机融合,成为引领能源产业变革、实现创新驱动发展的源动力。能源行业整体处于信息化向智能化迈进过程。其中,电力系统信息化基础较好,并积极探索泛在物联的数字化技术集成创新,已经进入能源智能化阶段,是能源数字化的先行领域。
按照应用对象,能源领域智慧化应用主要包括三大场景,详见下图:
强化学习作为一种典型的交互试错型学习方法,适用于求解具有不确定性的复杂动态系统优化问题,因此在能源领域得到广泛关注。那么强化学习在能源领域可以用于解决哪些问题?效果如何呢?
强化学习是机器学习的另一个领域。它关注的是在没有任何标签的情况下,通过与环境的不断交互,来不断优化自身策略的算法。它讲究通过多步恰当的决策,来逼近一个最优的目标。下图描述了经典的强化学习场景:智能体agent
在环境environment
中学习,在 t t t 时刻,根据环境的状态state
( S t S_t St),执行动作action
( A t A_t At),并根据环境的反馈 reward
(奖励 R t R_t Rt)来指导下一个时刻采取更好的动作。
打个比方,你想让一个小孩子坐下来复习考试,这是非常困难的。但是如果每次完成一个话题时都给他一块巧克力,他就会明白,如果他继续学习,他就会得到更多的巧克力棒,这样他就会有动力去复习。然而一开始,这个孩子并没有时间观念,也不知道该如何准备,他可能会花费数小时研究一个话题,而无法按时完成教学大纲内的所有复习内容。那么,如果他在1个小时内完成了一个话题,我们就给他一个大块的巧克力;如果他花了1.5个小时,就给他一小块巧克力;如果他花了更长的时间,就只给他一块太妃糖。渐渐地,这个孩子不仅知道了学习,而且会找到方法如何更快地完成任务。
随着碳排放、能源可持续性、能源效率问题逐渐受到重视,促进可再生能源在能源系统中的大规模普及已成为共识。在这一趋势下,集中发电正逐步向分布式能源系统转变,能源系统的复杂性提升,管理难度加大。此外,可再生能源(如,风能、太阳能)等能源形式是不确定且不可调度的,储能技术和可调度能源技术的引入进一步加大分布式能源系统的管理难度。
总之,随着能源系统的复杂性、网络物理交互,不确定性和安全挑战的日益增加,使用行业已有基于物理模型的方法难以有效控制能源系统中的能源流动,因而,需要对当前能源系统控制的方法进行范式转变。
在这一背景下,机器学习的主要分支(即监督,半监督,无监督和增强学习)已经在能源领域建立了良好的研究基础,一些强化学习方法也已成功应用于能源系统领域。由下图左可见,自2018年起强化学习在能源领域的应用出现爆发式增长。相比于领域内普遍采用的白盒模型(如,动态规划、模型预测控制算法),强化学习可以更好处理模型不确定和复杂性问题。然而,需要指出,虽然强化学习在该领域得到一定关注,但目前能源领域研究仍以白盒模型为代表(见下图右)。
强化学习在能源领域主要应用于运行优化问题,如建筑能源管理系统、能源调度、车辆能源系统、能源设备、电网管理、能源市场等领域。各领域内的研究数量分布如下图。可以发现,大多数能源系统强化学习(近50%)研究都集中在建筑能源管理或调度问题上。
建筑能源管理系统:主要内容为,考虑建筑物热惯性、天气不确定性、人员使用行为等进行建筑内暖通空调(HVAC)、照明、百叶窗等的最优控制,以实现提高舒适度、提高能效或降低成本为主要目标。
能源调度问题:调度问题主要关注通过最佳利用储能、可再生能源技术和可调度能源来满足电力、热力和制冷需求,以降低成本为主要目标。此外,由于近期对于环境问题的关注,降低排放也逐步被作为调度优化目标之一。
车辆能源系统:该类控制问题主要包括:1)汽车对电网(V2G车辆)接入电网的充放电优化,2)车辆能源系统管理。
电网控制:通常考虑,电网的瞬态稳定性、“n-1”安全性、电压和频率调节,最佳功率流等。
能源设备:如,风力发电机和太阳能电池板的最大功率点跟踪(MPPT)。
能源市场
从能源系统研究领域使用的强化学习算法来看,可以发现:
Q-learning
是主要采用的强化学习方法,占比超过50%。actor-critic
方法,而采用基于表格或基于浅层网络的函数近似方法;并且基本基于现成的算法库或优化算法。Batch-RL
算法也尚未得到使用。至于强化学习相比于能源领域传统方法的效果,大多数研究尚缺乏适当的基准测试以进行强化学习与基于模型的方法或灰盒模型比较,这使得很难就性能改进做出任何有力地结论。据目前研究中出现的有限对比来看,强化学习方法在许多应用中(尤其是在建筑能源管理中)表现出10-20%的性能提升;当然在极少数情况下,也会发生白盒模型的性能优于强化学习的情况,比如,在车辆能源系统和能源设备领域,使用强化学习后的性能提升通常不到5%,这一现象可能受限于使用的简单强化学习算法无法带来较大性能提升。
总的来说,虽然目前在能源系统领域,强化学习的优势并未被充分发挥,但不可否认,强化学习在解决日益复杂的能源系统运行优化方面具有巨大潜力。
下面我们选取强化学习在能源领域的热点应用场景,进一步展开进行介绍,包括建筑能源管理系统(Building energy management systems, BEMS)、能源调度(Energy dispatch)。
在该领域应重点关注暖通空调 AI 数据采集与节能控制系统的研究。一是,暖通空调系统节能减排需求迫切。当前中国建筑面积规模位居世界第一,暖通空调系统作为能耗大户,占据公共建筑建筑物能耗的 50%-60%。二是,该领域已具备一定的研究基础。与建筑能源管理系统有关的研究都集中在暖通系统(HVAC)的最优控制方面,这类文献占比超过了80%。
暖通空调 AI 数据采集与节能控制系统(后称智能暖通节能系统) 能通过传感器等设备采集数据并对室内环境持续监控,感知并分析用户作息时间及个性化舒适要求,结合自然环境变化,自动调节供暖/供冷强度,并通过机器学习,分析暖通空调系统运行最佳状态,自动选用最佳节能方案,达到设备高效运行与降低能耗等多重最优。
在该领域应重点关注电力系统由可再生能源替代驱动的多种能源调度优化问题。一是,我国首要脱碳转型的领域就是电力部门,且电力系统信息化基础较好,并已经进入能源智能化阶段,是能源数字化的先行领域。二是,该领域在研究领域也得到了广泛关注。有关能源调度的已有研究95%都针对电力部门,储能和可调度能源的最优控制受到关注,分别占该类研究的82%和60%。此外,已有将多智能体强化学习(MARL)应用于该领域的少量实践。
下图所示为一个简化的能源系统,包括可再生能源以及能源储存技术。能源系统与电网相连,以满足附近的电力需求。 当没有产生足够的可再生能源来满足能源需求时,可以使用电池组或电网来补偿。能源调度决策包括电池组的充电状况、电网电量输入等。如何进行能源调度决策取决于以下几个因素,例如电网中的当前电价、一定时间区间内的电网中电价预测,一定时间区间内的可再生能源发电量预测以及需求预测。
Ref.: Applications of reinforcement learning in energy systems
智慧能源白皮书——拥抱数字时代-育先机开新局.pdf
领域综述文章:
Applications of reinforcement learning in energy systems (2021)
Reinforcement learning in sustainable energy and electric systems: a survey