买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于能源需求响应管理的无模型强化学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于能源需求响应管理的无模型强化学习方法

面议

专利号： 2022115624074

申请人：西南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于能源需求响应管理的无模型强化学习方法，其特征在于，包括以下步骤：构建住宅电器模型，所述住宅电器包括可调度电器、不可调度电器和插电式电动汽车；

结合居民综合用电成本和零售商利润确定社会福利，根据所述社会福利平衡居民综合用电成本与零售商利润，社会福利表示为基于价格的住宅需求响应管理非凸优化问题；

根据电网的传输数据，分别采用基于Q‑表的Q学习算法、深度学习与Q学习相结合的Q‑网络算法和Actor‑Critic算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案；

根据三种所述基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案，确定最优解决方案和最优零售价格序列。

2.根据权利要求1所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述构建住宅电器模型，具体包括：假设可调度电器的集合为Nd＝{1,...,D}，不可调度电器的集合为Nn＝{1,...,N}，插电式电动汽车的集合为Np＝{1,...,P}，则所有电器的集合可以表示为Nz＝Nd∪Nn∪Np＝{1,…Z}。

3.根据权利要求2所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，在对所述可调度电器进行建模时，具体包括：将可调度电器d∈Nd的实际用电量表示为：

式中，T表示总时隙，Rd,t是可调度电器的预期能源需求，单位为kWh，Ed,t为可调度电器的实际用电量，单位为kWh，ρd,t为零售商决定的电力零售价格，θt为零售商从能源市场购买的批发价格，且ρd,t≥θt，δt为价格弹性系数，且小于0，表示能源需求和电力零售价格之间的相互关系；

通过预期能源需求和实际用电量的差值，即需求误差，表示居民的电力消费幸福指数，公式为：式中，Cd,t表示用电幸福函数，表示在特定电力零售价格下，居民在时间段t的实际消费Ed,t越接近于Rd,t，幸福感越强；hd1和hd2均为与电器相关的幸福系数；

电力幸福函数的可用范围限制为：

式中，为需求误差下确界，为需求误差上确界。

4.根据权利要求3所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，在对所述不可调度电器进行建模时，具体包括：所述不可调度电器在所有时间段均满足能源需求和实际用电量的恒等关系，即：Rn,t＝En,t (4)

式中，Rn,t表示不可调度电器的预期能源需求，En,t表示不可调度电器的实际用电量。

5.根据权利要求4所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，在对所述插电式电动汽车进行建模时，具体包括：将插电式电动汽车p∈Np的实际用电量表示为：式中，Rp,t为插电式电动汽车的预期能源需求，Ep,t为插电式电动汽车的实际用电量，且在Ep,t<0时，表示放电，在Ep,t>0时，表示充电；ρp,t为电动汽车的电力零售价格，θt为批发价格，δt为价格弹性系数，且小于0，表示能源需求和电力零售价格之间的相互关系；

所述插电式电动汽车的电力幸福函数Cp,t表示为：式中，hd1和hd2均为与插电式电动汽车相关的幸福系数；

所述插电式电动汽车在每个时隙存在对应的额定功率限制，即：式中，表示插电式电动汽车的额定功率；

基于所述插电式电动汽车的充放电特性和电池容量，插电式电动汽车的额定功率受到的限制为：式中，和分别代表电池容量的最小电量和最大电量，表示初始能级，ep表示充电或放电效率；

所述插电式电动汽车的电池退化的成本为：

Degp,t＝υ|Ep,t| (9)

式中，υ为退化系数；

其中，电力的零售价格受到以下限制：

min max

ρ ≤ρn,t,ρp,t,ρd,t≤ρ (10)min max

式中，ρ 为零售价格的最小值，ρ 为零售价格的最大值。

6.根据权利要求5所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述结合所述居民综合用电成本和零售商利润，确定社会福利，根据所述社会福利平衡居民综合用电成本与零售商利润，具体包括：获取住宅电器的能耗，则所述居民综合用电成本为：式中，ECt表示在时间段t的所有电器的综合成本，为插电式电动汽车的电力成本，BDp,t表示电池放电的电力销售价格；

获取居民用电总能耗、电力零售价格和批发价格，则所述零售商利润为：式中，EPt表示零售商在t时间段的利润；

根据零售价格确定实际用电量，最大化所述社会福利平衡居民用电成本和零售商利润，最大化社会福利指一个带有双层优化目标的的权值平衡问题，即基于价格的住宅需求响应管理非凸优化问题表示为：s.t.(3),(7)‑(8),(10)

式中，n,d,p∈Nz,t∈T，ω为平衡商业利润和住宅能耗的相对社会价值权重，P为由住宅电器组成的电力零售价格的向量。

7.根据权利要求6所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案之前，还包括：基于无模型强化学习算法构建零售商‑居民的电力交易模型，所述无模型强化学习的基本元素包括一个五元组，对应的零售商‑居民的电力交易模型为：状态S＝{s1,...,sT}，Ri,t的能源需求和Ei,t‑1的实际耗电量，由住宅产生；

动作A＝{a1,...,aM}，零售价格ρi,t由电力零售商决定，M表示离散化零售价格区间min max[ρ ,ρ ]后的集合数；

奖励R＝{r1,...,rT}，社会福利Ft(P)；

状态转移函数Tt，与零售价格相关；

折扣因子γ∈[0,1]，为未来社会福利的重要性权重。

8.根据权利要求7所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述采用基于Q‑表的Q学习算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案，具体包括：基于贝尔曼方程和贪婪策略对q‑值进行更新，q‑值的更新公式为：式中，k表示训练索引，lr表示学习率；

当Q‑表收敛时，采用贪婪策略获得最佳零售价格，为：用Q‑值函数近似代替Q‑表，即：

式中，α表示Q‑网络的权重；

在监督学习中通过当前训练索引k的网络估计下一个时隙的q‑值作为标签，则目标q‑值可以表示为：Q‑网络的损失函数可以表示为：

式中，采用梯度下降法迭代更新权重α。

9.根据权利要求7所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述采用深度学习与Q‑学习相结合的Q‑网络算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案，具体包括：k

采用DDQN对每个电器使用两个相同的Q‑网络结构：当前Q‑网络α和目标Q‑网络并分别用于负责决策和基于q‑函数的估计；

基于公式(17)，目标q‑值表示为：

式中，表示目标Q‑网络的q‑值，表示当前Q‑网络的估计q‑值，则损失函数表示为：

采用公式(19)和(20)，电力零售商根据当前Q‑网络α与住宅进行F天的信息交互，将观测值存储在经验回放缓冲区D中，并从D中抽出M组观测值，用于训练当前Q‑网络，目标Q‑网络权重则在固定周期C进行更新。

10.根据权利要求7所述的一种基于能源需求响应管理的无模型强化学习方法，其特征在于，所述采用Actor‑Critic算法构构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案，具体包括：为Q‑网络加入相应的Actor策略网络，其策略分布为：式中，Pr表示概率分布；

Actor‑Critic网络的输出分别表示为：ηi,t＝φa(si,t,βi) (22)Ji,t＝φc(si,t,ai,t,αi) (23)式中，βi和αi分别为Actor神经网络的权重和Critic神经网络的权重，φa和φc为激活函数，估计的动作ηi,t是Actor网络的输出，动作值函数Ji,t是Critic网络在时隙t的输出，则时序差分误差为：TDi,t＝Ft(P)+γJi,t+1‑Ji,t (24)式中，折扣因子γ＝0时，表示忽略了未来的状态值；γ＝1时，表示学习算法对所有时间段的奖励给予公平的重视；

则Critic神经网络的损失函数被定义为：利用时序差分误差作为Actor网络的评价函数，基于反向传播，Actor‑Critic的更新公式被表示为：式中，la和lc分别表示Actor和Critic的学习率。