买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度强化学习的多VSG微电网协调控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度强化学习的多VSG微电网协调控制方法

￥26800

专利号： 2024106869870

申请人：南京师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于深度强化学习的多VSG微电网协调控制方法，其特征在于，包括如下步骤：步骤S1，建立多VSG孤岛微电网模型，实现电能变换，步骤S2，建立DDPG智能体状态空间，

步骤S3，建立DDPG智能体动作空间，

步骤S4：建立DDPG智能体奖励函数，

步骤S5：建立DDPG智能体终止函数，

步骤S6；建立DDPG智能体双网络架构，步骤S7，建立DDPG智能体策略网络目标函数，步骤S8，建立DDPG智能体价值网络损失函数，步骤9，建立DDPG智能体目标网络参数软更新机制，步骤S10，建立基于DDPG智能体二次控制的微电网协调控制策略。

2.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S1，建立多VSG孤岛微电网模型，具体如下：步骤S1.1，建立VSG主电路结构：分布式电源，三相DC‑AC逆变电路，在逆变器出口处配备LC滤波器，消除电流中的谐波，为滤波电感，为滤波电容，为滤波电感的寄生电阻，为滤波电容的寄生电阻；

步骤S1.2，建立VSG的控制环节：无功电压、有功频率外环，电压电流内环，PWM发生器；

其控制流程为：首先采集LC滤波器端口处电压电流，计算VSG输出有功和无功，外环根据输出功率，通过控制算法生成电压环参考电压幅值和相位；然后，电压环根据电压参考值与实际值偏差经PI控制器生成电流内环电流参考值，电流内环经PI控制器生成PWM调制信号；最后经PWM控制后实现电能变换。

3.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S2，建立DDPG智能体状态空间，具体如下，根据以微电网电压稳定，频率稳定和功率均分为目标，故状态空间变量选择以第台VSG实际频率，实际电压有效值，实际有功功率出力，实际无功功率出力作为智能体的观察量,建立状态空间：。

4.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S3，建立DDPG智能体动作空间，具体如下：DDPG智能体作为微电网二次控制器，由于为了实现电压稳定，频率稳定和功率均分目标控制，故动作变量为每个VSG功率补偿:其中是每个VSG有功出力的变化的补偿值，是负载变化的功率，为分布式电源个数或VSG个数；

其中是每个VSG有功出力的变化的补偿值，是负载变化的功率，为分布式电源个数或VSG个数；

即动作空间为：

。

5.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S4：建立DDPG智能体奖励函数，具体如下，步骤S4.1，每个VSG智能体频率奖励函数：其中，是设定的额定频率，为50Hz，为VSG实际频率；

步骤S4.2，每个VSG智能体电压奖励函数：其中，是微电网的额定电压等级，为VSG实际输出电压；

每个智能体最终所获得的奖励函数为频率与电压奖励函数之和:式中，为频率奖励函数，为电压奖励函数。

6.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S5：建立DDPG智能体终止函数：当每个VSG满足条件时，智能体停止学习。

7.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S6；建立DDPG智能体双网络架构其中，DDPG双网络架构包括以下4个网络：预测策略网络，用于计算预测确定性策略, 为预测策略网络参数；

目标策略网络，用于计算目标确定性策略, 为目标策略网络参数；

预测价值网络，用于计算预测动作值, 为预测价值网络参数；

目标价值网络，用于计算目标动作值, 为目标价值网络参数；

预测网络和目标网络的网络结构完全相同，预测网络的参数使用训练进行更新，目标网络不参与训练，其参数定期从预测网络复制，DDPG采用软更新的方式进行复制。

8.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S7，建立DDPG智能体策略网络目标函数，具体如下：在DDPG算法中，策略网络的优化目标被定义为累积折扣奖励：,

优化确定性策略函数即为最大化目标函数，即；

策略通过策略梯度迭代更新：

再利用小批量梯度上升算法(Mini‑Batch Gradient Ascent, MBGA)即可实现对目标函数最大化，式中，为更新的预测策略网络参数，未更新的预测策略网络参数，为小批量梯度上升算法系数，取0.05；

步骤S8，建立DDPG智能体价值网络损失函数，具体如下：价值网络使用基于TD差分的平方误差作为损失函数，即优化价值网络的过程即为最小化损失函数，即；

与策略网络梯度近似一样，从经验回放池中随机获得B个小批量数据即可得到的一个估计：由于价值网络要最小化损失函数，故使用小批量梯度下降算法(Mini‑Batch Gradient Descent, MBGD)进行训练，式中：为更新的预测价值参数；为未新的预测价值参数，小批量梯度下降算法系数，取0.25。

9.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤9，建立DDPG智能体目标网络参数软更新机制，具体如下：DDPG采用软更新方法，每次预测网络参数更新后，目标网络参数都会在一定程度上靠近预测网络；更新公式为：其中，是一个远小于1的超参数，取为0.001，为预测策略网络参数；为目标策略网络参数；为预测价值参数；为目标价值参数。

10.根据权利要求1所述的基于深度强化学习的多VSG微电网协调控制方法，其特征在于，步骤S10，建立基于DDPG智能体二次控制的微电网协调控制策略，具体如下：步骤S10.1，预测策略网络从微电网环境中获取当前状态 ,步骤S10.2，预测策略网络根据当前状态计算得到的动作，并传递给环境；

步骤S10.3，环境进行一个时间步的交互，并将交互数据传递给经验回放池；

步骤S10.4，待经验回放池有经验数据后，DDPG智能体从经验回放池中随机获取一个数量为batch size的小批量数据集作为训练数据使用；

步骤S10.5，目标策略网络计算下一种状态的确定性动作，并将结果传递给目标价值网络；

步骤S10.6，目标价值网络根据奖励函数计算下一种状态‑动作对的动作值，并将结果传递给预测价值网络；

步骤S10.7，预测价值网络根据奖励函数计算当前状态‑动作对的预测值，并构造损失函数，将其传递给价值优化器进行训练；

步骤S10.8，价值优化器将训练好的参数返给预测价值网络；

步骤S10.9，预测价值网络计算当前状态‑动作对的动作值，并传递给预测策略网络；

步骤S10.10，预测策略网络构造目标函数，并传递给策略优化器进行训练；

步骤S10.11，策略优化器将训练好的参数返给预测策略网络；

步骤S10.12，预测网络将参数和传递给目标网络进行软更新，步骤S10.13，若状态不满足终止函数，则转至步骤S301进行新一轮学习；

若状态满足终止函数，则停止循环。