1.一种基于约束投影强化学习的分布式经济调度优化方法,其特征在于,包括以下步骤:基于运行约束,结合发电成本函数和发电单元的可行功率输出构建分布式经济调度数学模型,所述运行约束包括节点功率平衡限制、爬坡率限制和发电容量限制;
对区域通信网络中的每个发电机实施平均一致性方法,以分布式方式获取微电网中的全局信息;
采用Actor‑Critic算法将分布式经济调度数学模型转换为基于约束投影的分布式经济调度优化问题;
结合拉格朗日乘子法与罚函数法,得到所述分布式经济调度优化问题的增广拉格朗日对偶形式,并基于KKT条件得到分布式经济调度优化问题的最优功率输出。
2.根据权利要求1所述的基于约束投影强化学习的分布式经济调度优化方法,其特征在于,所述基于运行约束,结合发电成本函数和发电单元的可行功率输出构建分布式经济调度数学模型,具体包括:构建的分布式经济调度数学模型为:|poi,t‑poi,t‑1|≤pri (3)式(2)‑(4)分别为节点功率平衡限制、爬坡率限制和发电容量限制,式中,i=1,…,N,t=1,…T,T表示总时隙,Ci是发电成本函数,poi,t是发电单元的可行功率输出,pdi,t是公用电网中负载单元的功率需求,pri表示第i个发电机的爬坡率限制, 和 是第i个发电机的最小和最大发电界限;
在不计线路传输损耗时,有:
式中,PDt是时隙t的总功率需求;
包含多种能源选择的混合成本函数为:式中, 是第i个发电机的成本系数,m=1,...,M,h=1,...,H,求解公式(1)时,设定假设1和假设2,其中,假设1为根据微电网的通信拓扑结构,每个负载总线信号均能够发送到对应的发电机总线;假设2为分布式经济调度数学模型中至少存在一个可行解 满足运行约束(2)‑(4)。
3.根据权利要求2所述的基于约束投影强化学习的分布式经济调度优化方法,其特征在于,所述对区域通信网络中的每个发电机实施平均一致性方法,以分布式方式获取微电网的全局信息,具体包括:基于二阶比例积分的动态平均一致性估计方程为:式中,Ni表示相邻节点的集合,ui是控制输入,vi是估计状态,zi是决策变量;
若系统拓扑为无向图,则估计状态收敛于所有控制输入ui的累积平均值,即在每个发电机均满足前述条件时,能够通过全局变量N计算控制输入ui的累加。
4.根据权利要求3所述的基于约束投影强化学习的分布式经济调度优化方法,其特征在于,所述采用Actor‑Critic算法将所述分布式经济调度数学模型转换为基于约束投影的分布式经济调度优化问题,具体包括:基于马尔科夫决策,下一个过程表示为:Pr(st+1∣s0,a0,…,st,at)=Pr(st+1∣st,at) (8)强化学习包括T个进程的五元组(S,A,T,R,Π),其中,包括状态集S={st};动作集A={at};状态转移模型 奖励集R={rt}和动作的策略分布{πt},表示在状态st和动作at下移动到下一个状态st+1的概率;πt~Pr(at∣st)表示根据st选择at的概率;作为长期累积奖励,回报 通过在每一次训练优化动作的策略πt来被最大化/最小化;
Actor‑Critic网络的输出表示为:式中, 和 分别是Actor神经网络的权重和Critic神经网络的权重;Sa和Sc是激活函数; 和 是特征向量;动作概率 是Actor网络的输出,状态值函数 是Critic网络在时隙t和迭代索引k的输出;
每个智能体的时序差分误差为:
式中,奖励函数为 λi∈[0,1]是折扣因子;
Critic神经网络的损失函数定义为:对于Actor网络,采用时序差分误差作为评估函数,并基于反向传播对Actor‑Critic进行更新,公式为:式中,la和lc分别表示Actor和Critic的学习率,在终端时隙T, 满足即状态值 在时隙T+1处设置为0;
根据约束条件(2)‑(4),将所述分布式经济调度数学模型转换为分布式经济调度优化问题,为:通过Critic框架评估可行动作 的状态值 且基于约束投影属性和给定的状态值 为 到 的唯一投影。
5.根据权利要求4所述的基于约束投影强化学习的分布式经济调度优化方法,其特征在于,所述结合拉格朗日乘子法与罚函数法,得到所述分布式经济调度优化问题的增广拉格朗日对偶形式,并基于KKT条件得到分布式经济调度优化问题的最优功率输出,具体包括:将公式(15)转化为对偶问题,结合拉格朗日乘子法与罚函数法,得到增广拉格朗日对偶形式为:式中, L是系统网络的拉普拉斯矩阵,乘子YT T
=(y1,y2,…,yN) ,X=(x1,x2,…,xN) ;
根据KKT条件,分布式经济调度优化问题的最优解即为目标函数(15)平衡点的数值解;
基于增广拉格朗日函数的投影形式,采用分布式投影算法:式中,有:
假设3:假设斜坡率约束区间和发电量约束区间的交集不为空集,即通过约 束投影得 到Actor网络的输入 从式(15) 得出:则基于反向传播更新方法,对每个发电机有:假设联合功率斜坡率约束为:
PRt=PR1,t×PR2,t×…×PRN,t则全局可行功率输出向量为:
POt=(po1,t,po2,t,…,poN,t)Actor策略网络的全局功率输出向量为:Pt=(p1,t,p2,t,…,pN,t)由式(17)得到全局形式为:
同时,从 有:
T
其中1N=(1,...,1) ,局部微分系统(17)的全局形式为:通过LaSalle不变集定理和投影定理给出,在上述假设1‑3成立时,约束投影算法的迭代轨迹有界且收敛得到分布式经济调度优化问题的最优解。
6.根据权利要求5所述的基于约束投影强化学习的分布式经济调度优化方法,其特征在于,所述通过LaSalle不变集定理和投影定理给出,在上述假设1‑3成立时,约束投影算法的迭代轨迹有界且收敛得到分布式经济调度优化问题的最优解,具体包括:全局微分系统(21)被进一步整合,假设:T
Z=(POt,Y,X) (22)则微分系统(21)的平衡点定义为:投影区间扩展为 (21)和(23)结合,可得:式(21)可转化为:
其中,
设计以下Lyapunov函数:
连续微分系统(25)表示为:
其中,s为连续变量,式(26)为:由内积性质可知:
此外,(25)得出:
依据投影性质,有:
因此Lyapunov函数满足:
*
式中, 当且仅当Z(s)=Z,则:函数L(s)的导数由下式给出:
基于 公式(33)写为:
其中,雅可比矩阵JQ(Z)表示为:根据约束投影的投影性质,有:
有:
从(34)可得:
得到:
从(30)和(39)得到:
在平衡点附近,存在以下紧不变集:从(38),有:
将Q(Z)插入到(42),则有:依靠KKT条件 则有:
式(43)满足:
设Θ是所有点的集合,使得 即 Θ是不变量集S中的一个最大不变量集, 基于LaSalle不变集定理和分布式经济调度优化问题的凸性,可行功率通过渐近收敛获取最优功率输出,即