1.一种考虑综合能源系统薄弱环节的近端策略优化调度方法,其特征在于,采用近端策略优化调度方法用于调度综合能源系统薄弱环节,具有实时性和确定性的特点;在使用过程中的步骤为:步骤(1)根据综合能源系统特征,建立综合能源系统模型;
建立综合能源系统模型,描述各环节的连接方式,环节间耦合和环节能量转换;
综合能源系统包括供能网络环节、能源交换环节和能源存储环节;
供能网络环节提供能源并输入到能源交换环节和能源存储环节当中;
能源交换环节使能源在供能网络环节和能源存储环节间交换从而达到环节间的耦合;
能源存储环节利用储能设备将电能、热能和气能能源储存起来;
建立供能网络环节、能源交换环节和能源存储环节模型;
步骤(2)初始化近端策略优化调度方法参数;
近端策略优化调度方法是一种无模型、在线、符合策略的策略梯度强化学习方法通过环境交互采样数据和优化剪裁数据之间交替使用随机梯度下降的替代目标函数解决出现薄弱环节的问题;
待初始化近端策略优化调度方法的参数为:初始化近端策略优化调度方法Actor当前网络的π(A|S;θ)的随机参数值θ,初始化近端策略优化调度方法Critic当前网络的V(S;φ)的随即参数值φ;步骤(3):获取综合能源系统的状态SDDPG;
其中:
式中:λPV,c表示光伏能量消纳率;WPV表示光伏理论最大出力量;WPV,c表示光伏实际消纳量;Npv表示光伏的数量;fe表示二氧化碳排放量;PPV(t)表示t时刻光伏的电功率;PPV,c(t)表示t时刻光伏的实际电功率;Δt表示调度时间,取1小时; 和 分别表示为用于发电及产热和从电网购买并消耗电能对应的二氧化碳年排放量; 表示使用天然气对应的二氧化碳排放系数; 表示用电所对应的二氧化碳排放系数;Ggas表示消耗的天然气能量;Wgrid表示购电量;
C=min(CI+CO+CM) (8)
CM=CPV+CCHP+CHP+CES+CHS (12)式中:C表示综合能源系统扩容总费用;CI表示综合能源系统设备扩容的投资费用;CO表示年运行费用;CM表示年维护费用;k表示综合能源系统设备扩容的总数量;Ri表示设备i的年值系数;ci,I表示设备i单位容量的投资成本;Pi,I表示设备i的扩容量;r表示折现率;ni表示设备i的寿命;cgrid(t)表示t时刻电价;cgas表示天然气价格;Pgrid(t)和GCHP(t)分别表示为t时刻从电网购电功率以及热电联产输入端的功率;
式中:PV表示光伏;CHP表示热电联产;HP表示热泵;ES表示电储能;HS表示热储能;CPV、CCHP、CHP、CES和CHS分别表示为光伏、热电联产、热泵、电储能和热储能的维护费用;cM,PV、cM,CHP、cM,HP、cM,ES和cM,HS分别表示为光伏、热电联产、热泵、电储能和热储能的单位功率的维护费用;PCHP(t)表示t时刻热电联产的电功率;HCHP(t)表示t时刻热电联产的热功率;HHP(t)表示t时刻热泵的热功率;|PES(t)|和|HHS(t)|分别表示为t时刻电储能和热储能功率的绝对值和放能功率的绝对值;
综合能源系统设备i的运行约束为:
综合能源系统需满足的电功率平衡约束为:
综合能源系统需满足的热功率平衡约束为:
i
式中:P (t)表示为t时刻设备i的功率值; 表示为改造后设备i的出力上限; 表示为改造前设备i的出力上限; 和 表示t时刻电储能的充电功率和放电功率;PHP(t)表示t时刻热泵的电功率;PL(t)表示为t时刻电负荷功率; 和 表示为t时刻电储能的充热功率和放热功率;HL(t)表示为t时刻热负荷功率; 表示为t时刻热储能的充热功率;
步骤(4)按照近端策略优化调度方法Actor‑Critic当前网络生成N个经验;
按照近端策略优化调度方法中的Actor‑Critic当前网络生成N个经验;经验顺序为Sts,Ats,Rts+1Sts+1……Sts+N‑1,Ats+N‑1,Rts+N,Sts+N;
其中St为状态观测,At为是从该状态执行的动作,St+1为下一个状态;Rt+1为从St到St+1获得的奖励;当处于状态St时,近端策略优化方法计算使用π(A|St;θ)在操作空间中执行每个动作At的概率并根据概率分布;ts为是当前N个经验集的开始时间步长;在训练集开始时,ts=1,对于同一训练集中的每一组后续N个经验,ts←ts+N;对于不包含终端状态的每个经验序列,N等于经验地平线选项值,否则SN为终止状态;
步骤(5)计算返回函数Gt和优势函数Dt;
对于每一个经验集步骤t=ts+1,t=ts+2……t=ts+N,算返回Gt,即该步骤的奖励与折扣的未来奖励之和:2
Rk=(‑1)ω1Δf‑ω2cost‑ω3co2‑ω4br (22)其中,Rk为奖励函数;ω1、ω2、ω3、ω4为比例因子;Δf为频率偏差;cost为所用能源成本;co2为二氧化碳排放量;br为综合能源系统最薄弱的一个环节发生故障的代价;b为如果Sts+N为终止状态则b为0,否则为1;如果Sts+N不为终止状态,则折扣的未来奖励包括近端策略优化调度方法Critic网络V(S;φ)计算的折扣状态值函数,计算使用近端策略优化调度方法Critic网络V(S;φ)计算优势函数Dt:Dt=Gt‑V(S;φ) (23)
Dt为计算优势函数,即时间差分误差的折扣和:
其中,λ为平滑因子,γ为折扣因子;
步骤(6)从K个时期的小批量经验中学习;
对于每个学习时期,从当前的经验集中对大小为M的随机小批量数据集中采样,小批量数据集的每个元素包含当前经验以及相应的返回和优势函数值;通过最小化所有采样小批量数据的损失来更新Lcritic(φ)参数;
Gi为小批量数据集的第i个元素的返回值;
根据最近的非规范化优势值对优势值Di进行规范化;如果规范化优势方法选项为无,无需规范化优势值:如果规范化优势方法选项为当前,根据当前小批量中的非规范化优势对优势值进行规范化:为规范化优势值;mean(D)为平均值函数;std(D)为标准差函数;
步骤(7)通过最小化所有采样小批量数据的执行策略损失函数Lactor(θ)来更新执行策略参数;
其中,Di和Gi分别为小批量的第i个元素的优势函数和返回值;min()为最小值函数;Hi(θ)为熵损失;π(Ai|Si;θ)为给定更新的策略参数θ时,在状态Si下执行操作Ai的概率;π(Ai|Si;θold)为当处于状态Si时采取行动Ai的概率,给定当前学习时期之前的先前策略参数θold;
ε为裁剪因子;ω为熵损失权重因子;
步骤(8)重复步骤(4)到步骤(7)直到训练达到终止状态;
步骤(9)输出调度综合能源系统薄弱环节中的各个能源的调度出力;
输出调度综合能源系统薄弱环节中的各个能源的调度出力,从而避免综合能源系统薄弱环节发生问题。