1.基于深度强化学习的多VSG微电网协调控制方法,其特征在于,包括如下步骤:步骤S1,建立多VSG孤岛微电网模型,实现电能变换,步骤S2,建立DDPG智能体状态空间,
步骤S3,建立DDPG智能体动作空间,
步骤S4:建立DDPG智能体奖励函数,
步骤S5:建立DDPG智能体终止函数,
步骤S6;建立DDPG智能体双网络架构,步骤S7,建立DDPG智能体策略网络目标函数,步骤S8,建立DDPG智能体价值网络损失函数,步骤9,建立DDPG智能体目标网络参数软更新机制,步骤S10,建立基于DDPG智能体二次控制的微电网协调控制策略。
2.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S1,建立多VSG孤岛微电网模型,具体如下:步骤S1.1,建立VSG主电路结构:分布式电源,三相DC‑AC逆变电路,在逆变器出口处配备LC滤波器,消除电流中的谐波, 为滤波电感, 为滤波电容, 为滤波电感的寄生电阻, 为滤波电容的寄生电阻;
步骤S1.2,建立VSG的控制环节:无功电压、有功频率外环,电压电流内环,PWM发生器;
其控制流程为:首先采集LC滤波器端口处电压电流,计算VSG输出有功和无功,外环根据输出功率,通过控制算法生成电压环参考电压幅值和相位;然后,电压环根据电压参考值与实际值偏差经PI控制器生成电流内环电流参考值,电流内环经PI控制器生成PWM调制信号;最后经PWM控制后实现电能变换。
3.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S2,建立DDPG智能体状态空间,具体如下,根据以微电网电压稳定,频率稳定和功率均分为目标,故状态空间变量选择以第 台VSG实际频率 ,实际电压有效值 ,实际有功功率出力 ,实际无功功率出力 作为智能体的观察量,建立状态空间:。
4.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S3,建立DDPG智能体动作空间,具体如下:DDPG智能体作为微电网二次控制器,由于为了实现电压稳定,频率稳定和功率均分目标控制,故动作变量为每个VSG功率补偿:其中 是每个VSG有功出力的变化的补偿值, 是负载变化的功率, 为分布式电源个数或VSG个数;
其中 是每个VSG有功出力的变化的补偿值, 是负载变化的功率, 为分布式电源个数或VSG个数;
即动作空间为:
。
5.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S4:建立DDPG智能体奖励函数,具体如下,步骤S4.1,每个VSG智能体频率奖励函数:其中 , 是设定的额定频率,为50Hz, 为VSG实际频率;
步骤S4.2,每个VSG智能体电压奖励函数:其中 , 是微电网的额定电压等级, 为VSG实际输出电压;
每个智能体最终所获得的奖励函数为频率与电压奖励函数之和:式中, 为频率奖励函数, 为电压奖励函数。
6.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S5:建立DDPG智能体终止函数:当每个VSG满足条件 时,智能体停止学习。
7.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S6;建立DDPG智能体双网络架构其中,DDPG双网络架构包括以下4个网络:预测策略网络 ,用于计算预测确定性策略, 为预测策略网络参数;
目标策略网络 ,用于计算目标确定性策略, 为目标策略网络参数;
预测价值网络 ,用于计算预测动作值, 为预测价值网络参数;
目标价值网络 ,用于计算目标动作值, 为目标价值网络参数;
预测网络和目标网络的网络结构完全相同,预测网络的参数使用训练进行更新,目标网络不参与训练,其参数定期从预测网络复制,DDPG采用软更新的方式进行复制。
8.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S7,建立DDPG智能体策略网络目标函数,具体如下:在DDPG算法中,策略网络的优化目标被定义为累积折扣奖励:,
优化确定性策略函数即为最大化目标函数 ,即 ;
策略通过策略梯度迭代更新:
再利用小批量梯度上升算法(Mini‑Batch Gradient Ascent, MBGA)即可实现对目标函数 最大化,式中, 为更新的预测策略网络参数, 未更新的预测策略网络参数,为小批量梯度上升算法系数,取0.05;
步骤S8,建立DDPG智能体价值网络损失函数,具体如下:价值网络使用基于TD差分的平方误差作为损失函数,即优化价值网络的过程即为最小化损失函数,即 ;
与策略网络梯度近似一样,从经验回放池中随机获得B个小批量数据即可得到的一个估计:由于价值网络要最小化损失函数,故使用小批量梯度下降算法(Mini‑Batch Gradient Descent, MBGD)进行训练,式中: 为更新的预测价值参数; 为未新的预测价值参数, 小批量梯度下降算法系数,取0.25。
9.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤9,建立DDPG智能体目标网络参数软更新机制,具体如下:DDPG采用软更新方法,每次预测网络参数更新后,目标网络参数都会在一定程度上靠近预测网络;更新公式为:其中, 是一个远小于1的超参数,取为0.001,为预测策略网络参数; 为目标策略网络参数; 为预测价值参数; 为目标价值参数。
10.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法,其特征在于,步骤S10,建立基于DDPG智能体二次控制的微电网协调控制策略,具体如下:步骤S10.1,预测策略网络从微电网环境中获取当前状态 ,步骤S10.2,预测策略网络根据当前状态 计算得到的动作 ,并传递给环境;
步骤S10.3,环境进行一个时间步的交互,并将交互数据 传递给经验回放池;
步骤S10.4,待经验回放池有经验数据后,DDPG智能体从经验回放池中随机获取一个数量为batch size的小批量数据集作为训练数据使用;
步骤S10.5,目标策略网络计算下一种状态 的确定性动作 ,并将结果传递给目标价值网络;
步骤S10.6,目标价值网络根据奖励函数 计算下一种状态‑动作对的动作值 ,并将结果传递给预测价值网络;
步骤S10.7,预测价值网络根据奖励函数 计算当前状态‑动作对的预测值 ,并构造损失函数 ,将其传递给价值优化器进行训练;
步骤S10.8,价值优化器将训练好的参数 返给预测价值网络;
步骤S10.9,预测价值网络计算当前状态‑动作对的动作值 ,并传递给预测策略网络;
步骤S10.10,预测策略网络构造目标函数 ,并传递给策略优化器进行训练;
步骤S10.11,策略优化器将训练好的参数 返给预测策略网络;
步骤S10.12,预测网络将参数 和 传递给目标网络进行软更新,步骤S10.13,若状态 不满足终止函数 ,则转至步骤S301进行新一轮学习;
若状态 满足终止函数,则停止循环。