基于强化学习的复合储能微电网控制技术

2023.03.30

王亚东黄云峰李晓彤等

摘要：針对用户负载动态变化的离网微电网储能调度问题，本文提出了一种基于强化学习的复合储能微电网控制方法。首先构建了复合储能的马尔可夫决策模型。然后，根据微电网系统的复合储能模型设计了奖励函数，从而得到储能调度策略。最后，分析了无预测量，加入预测量两种场景下，强化学习调度策略性能，并验证了该方法的有效性。

关键词：复合储能;微电网;强化学习;马尔可夫决策模型

0 引言

新能源发电的随机性和不确定性给微电网储能调度带来了极大的困难，储能可以有效的平抑微电网中可再生能源发电的随机性和波动性，提高微电网的经济效益，是微电网经济调度的重要手段。

文献[1]提供了一种基于遗传算法的智能电网能量管理模糊学习方法。文献[2]已经通过使用强化学习多代理系统的框架来控制微电网。和传统的调度策略算法不同，强化学习算法是一种无模型调度方法，它不需要系统的先验知识和模型，智能体与环境交互学习系统的模型，并通过最大化累计奖赏获得最优控制策略。

本文针对微电网种的复合储能，使用了强化学习方法来管理储能，将电池的充放电状态描述为马尔可夫决策过程，利用智能体通过不断与环境交互获得最优的微电网复合储能调度策略。

1 储能微电网系统模型

1.1 微电网结构

本文研究的是微电网模型下复合储能的调度问题。微电网主要由复合储能元件和光伏元件组成，既可以解决分布式发电问题，同时提高了系统稳定性，提高了经济效益。

1.2 复合储能结构

储能形式多种多样，蓄电池是分布式电源中应用最为广泛，技术最为成熟，容量也比较大，储能过程比较稳定的储能方式。超级电容器维护工作量小，可靠性高，充放电速度快，循环寿命长，但是超级电容器价格贵，容量小，不适用于长期储能的情况。

根据蓄电池与超级电容器特点，这两种储能系统可以相互配合，同时应用，可以大规模应用到电力系统中，获得更好的储能效果与经济效益。

2 基于强化学习的调度策略实现

2.1 深度卷积神经网络

图1为CNN神经网络结构图。卷积层处理时间序列，卷积的输出以及其他输入作为完全连接层的输入，然后通过输出层输出Q值。

2.2 马尔科夫决策模型建立描述

基于马尔科夫决策过程，在每个时间步长上，智能体观测量包含状态、动作和奖励函数。系统在当前状态下采取动作并通过P函数转移到下一状态，即：

奖励函数与状态转移函数相关联，可用下列等式表示：

当智能体采用策略h时，累计回报在状态处的期望值定义为状态-动作值函数：

若已知，则最优策略可通过直接最大化来决定，即：

2.2.1 状态集合

（1）负荷量，光伏发电量，电池电量3个状态的场景：

（2）加入光伏预测发电量的场景：

2.2.2 动作空间

本文将动作空间划分成3个数值，即。其中表示蓄电池充电，表示蓄电池放电，表示蓄电池保持闲置。

2.2.3 回报函数

回报函数是一种即时奖励函数。当智能体对超级电容动作后，蓄电池的充放电状态会相应变化。

奖励函数示为：

指不能满足净电力需求的部分，当时。

式中：表示电池充电效率;表示电池放电效率。

年度运营收入：

要使得复合储能微网控制效果最好，本文以年度运营收益最大值为目标。

3 仿真试验和分析

图2是典型日无光伏预测量信息的场景一，图3是典型日加入光伏预测量信息的场景二，由图可知，随着智能体观测量的增加，调度控制策略越好，收益相应越高。可以看到图3取得了最好的控制效果。

蓄电池年度存储电量和微电网年度运营收入指标如下表。

电池电量表示超级电容电量变化的曲线，动作值表示蓄电池充放电动作，当光伏发电量大于负荷需求时，先由智能体控制器控制蓄电池进行充电，多余的电量储存在超级电容中，以年度运行收益为目标，由智能体决策出蓄电池的控制策略。

参考文献：

[1]Lauri，G.Basso，and J.Zhu，“Managing Power Flows in Microgrids Using Multi-Agent Reinforcement Learning，”Agent Technol. Energy Syst，2013.

[2]Changbin，L.Shanna，L.Zhengxi，W.Xin and L.Sun“Energy coordinative optimization of wind-storage-load microgrids based on short-term prediction，”Energies journal，vol.8， pp.1505-1528，April 2015.