利索能及
我要发布
收藏
专利号: 2024106765994
申请人: 南京师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多代理系统和深度强化学习的直流微网协调控制方法,其特征在于,包括如下步骤:步骤S1,典型分布式电源、储能和负荷建模;

针对各类分布式电源:对燃料电池通过串联组合的形式建立等值电路模型,对光伏利用最大功率跟踪算法建立等值电路模型,对锂电池储能系统通过三阶动态和四阶动态模型建立等值电路模型;同时根据微电网负荷的静态特性,对负荷建立变功率模型;

步骤S2,变流器建模与控制;

步骤S3,建立分布式控制架构;

所述的直流微网各分布式电源、可控负荷、储能系统控制节点间采用稀疏分布式网络连接,各节点仅与自身邻居节点通信,整个系统无中心节点,构成松散耦合的分布式控制系统;

步骤S4,建立使用java语言编写的用于开发代理框架的JADE平台,通过此平台可以实现基于FIPA标准的Agent系统的开发;

步骤S5,对微电网组成部分:燃料电池、光伏、锂电池储能系统、负荷分别在JADE平台中建立相应Agent:FC Agent、PV Agent、Battery Agent、Load Agent;

步骤S6,根据步骤S5所述的Agent:FC Agent、PV Agent、Battery Agent、Load Agent,在JADE按照FIPA定义的ACL通信语言实现Agent之间的相互通信,将分布式电源,储能,负荷模块输出的电压、电流和功率信息通过通讯机制传输到不同的代理中,实现微电网信息的实时传输;

步骤S7,根据微电网电压稳定,电流均流为目标,建立DDPG算法状态空间s,s=(Ui,Ii,Pi)Ui为分布式电源、储能和负荷的实际输出电压,Ii为实际输出电流,Pi为实际输出功率;

步骤S8,建立DDPG算法动作空间,

步骤S9,建立DDPG算法奖励函数,

步骤S10,建立DDPG算法终止函数,步骤S11;建立DDPG双网络架构,

步骤S12,建立DDPG策略网络目标函数,步骤S13,建立DDPG价值网络损失函数,步骤S14,建立DDPG目标网络参数软更新机制,步骤S15,将建立好的DDPG算法加入到微电网Agent中,使算法根据Agent收到的相邻Agent传输的电压电流信息,DDPG算法进行学习,给予变流器下垂控制环节一个最优的下垂系数Rd*;下垂控制根据最优Rd*调整下垂系数,最终实现高精度电流均流及电压调节,优化功率;

其中,步骤S2变流器建模与控制,具体如下:直流变流器采用直流下垂控制策略,

直流变换器控制采用双环控制结构,外环为功能环,实现下垂控制功能,内环为电流环,跟踪外环提供的电流参考值;

步骤S2.1,根据所述的下垂控制,建立输出电压的参考与电流的关系:Uo_ref=Uref‑RdIo

式中,Uref是空载时输出电压的参考值,Uo_ref为输出电压的参考值,Io是变换器输出电流,Rd是虚拟电阻;

步骤S2.2建立Rd表达式:

其中,ΔUmax为输出电压变化的最大值,由运行情况及电能质量要求决定,Imax为直流变换器最大输出电流;

步骤S2.3,根据下垂策略计算所得的输出电压参考值与实测电压间的误差产生内环电流的参考值,建立下垂外环的控制表达式:式中,Iref为电感电流的参考值,kp_v、ki_v分别为外环PI控制器的参数;

步骤S2.4,建立电流内环控制表达式:式中,kp_i、ki_i分别为内环PI控制器的参数,Im为调制信号;

步骤S8,建立DDPG算法动作空间,具体如下:建立动作空间a:

a=(Rd)

式中,Rd为虚拟电阻;

步骤S9,建立DDPG算法奖励函数,具体如下:步骤S9.1,建立电流奖励函数,

式中,ωk是第K个Agent的电流权重系数,Ik是第K个Agent的输出电流;

步骤S9.2,建立电压奖励函数,

其中ΔU=UN‑Uk,UN是微电网的额定电压等级,Uk为第K个Agent输出电压;

步骤S9.3,建立最终奖励函数R:即电压、电流奖励函数之和,R=Ri+Ru

式中,Ri为电流奖励函数,Ru为电压奖励函数;

步骤S10,建立DDPG算法终止函数:当每个代理满足条件0.95≤Ik‑1/Ik≤1&0.95≤Ik/Ik+1≤1&|ΔU|/UN<1%,DDPG算法停止;

步骤S11;建立DDPG双网络架构,具体如下:DDPG双网络架构包括以下4个网络:预测策略网络 θ为预测策略网络参数;目标策略网络 θ’为目标策略网络参数;预测价值网络 ω为预测价值参数;目标价值网络 ω’为目标价值参数;

步骤S12,建立DDPG策略网络目标函数,具体如下:步骤S12.1,建立优化目标为策略网络的累积折扣奖励:优化确定性策略函数即为最大化目标函数j(θ),即max J(θ);

步骤S12.2,策略通过策略梯度迭代更新:步骤S12.3,使用小批量梯度上升算法 即可实现对目标函数J(θ)最大化;式中,θl为更新的预测策略网络参数,θ0未更新的预测策略网络参数,α为小批量梯度上升算法系数,取0.1;

步骤S13,建立DDPG价值网络损失函数,具体如下:步骤S13.1,建立基于TD差分的平方误差作为价值网络损失函数,即优化价值网络的过程即为最小化损失函数,即min L(ω);

步骤S13.2,价值通过价值梯度迭代更新:步骤S13.3,使用小批量梯度下降算法 进行训练,式中:ω1为更新的预测价值参数;ω0为未新的预测价值参数,β小批量梯度下降算法系数,取0.5;

步骤S14,建立DDPG目标网络参数软更新机制,具体如下:DDPG采用软更新方法,每次预测网络参数更新后,目标网络参数都会在一定程度上靠近预测网络,更新公式为:其中,τ是一个远小于1的超参数,取为0.001,θ为预测策略网络参数;θ’为目标策略网络参数;ω为预测价值参数;ω’为目标价值参数。