买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度强化学习的多时间尺度电压调节方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度强化学习的多时间尺度电压调节方法及系统

￥22200

专利号： 2024116967653

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于深度强化学习的多时间尺度电压调节方法，其特征在于，包括如下步骤：步骤1.对存在大量可再生能源的有源配电网进行建模，建立有源配电网电压优化模型；

步骤2.建立含时间序列特性的拥有连续动作和离散动作特性的智能体；

智能体包括两个网络，一个是用于有载调压器、电容器组调度的在小时级别的时间尺度上进行离散控制的慢速网络，一个是用于逆变器、电储能系统调度的在分钟级别的时间尺度上进行连续控制的快速网络；智能体的快速网络和慢速网络又有两个内部网络，分别定义为快速控制Q网络、快速控制目标Q网络、慢速控制Q网络、慢速控制目标Q网络；

对快速网络的动作集合和慢速网络的动作集合进行堆叠，得到某时刻智能体的动作；

步骤3.使用单层马尔科夫构建多时间尺度决策过程，用于描述有源配电网电压优化模型和智能体的交互过程，并引入配电网状态、快速网络状态以及慢速网络状态；

其中特别的设计三个状态耦合的状态转移函数，并且使用时间计数器将快速时间尺度和慢速时间尺度分离，把时间计数器的输出作为激活信号用于控制慢速网络；

定义描述环境即ADN状态的转移函数，描述快速网络内部状态的转移函数，描述慢速网络内部状态的转移函数；

则转移概率函数

使用单层马尔科夫构建多时间尺度决策过程如下：a)状态空间：

定义状态st＝(xt,yt,zt)；

其中，xt是环境即ADN的当前状态 yt是快速网络的内部状态；zt是慢速网络的内部状态；

其中，表示负载有功功率需求量，表示负载无功功率需求量，Vi,t表示节点i在t时刻电压的幅值，表示在t时刻节点i处储能系统的电量含量，分别表示在t时刻接入节点i的光伏发电装置的有功功率输出量、风力发电机的有功功率输出量；

b)动作空间：

定义动作

其中，是快速网络在t时刻的动作，是慢速网络在t时刻的动作；

其中，表示光伏逆变器无功功率的控制率，表示风力发电装置的逆变器的有功功率的控制率；表示储能设备的有功控制率；

对于光伏和风机的逆变器，首先使用和

得到可用的无功功率，然后在相应的控制率作用下得到注入到ADN的无功功率

其中，表示光伏发电装置可用的无功功率，表示风力发电机可用的无功功率；分别为光伏和风机逆变器的额定容量，和表示控制率；

对于储能系统，在控制率的影响下得到实际注入ADN中的有功功率如果则

如果则

其中表示OLTC的分接触头的档位，表示接入ADN的电容器组的组数，即通过确定有载调压器OLTC的分接头tapt的位置，通过确定电容器接入配电网的组数c)转移概率：转移概率P(st+1|st,at)进一步分解为：其中，描述环境即ADN状态的转移函数，描述快速网络内部状态的转移函数，描述慢速网络内部状态的转移函数；

d)计数器：

对于慢速网络，引入一个计数器ct来跟踪时间步；

根据计数器的结果，在到达慢速网络动作的小时时间尺度的时候，慢速网络应该新的动作；在其他时间步，它保持上一个动作的状态；

如果时间步到达小时单位则ct＝0；

如果时间步为分钟单位则ct≠0，则有慢速网络的动作选择：步骤4.提出一种用于有源配电网的基于深度强化学习的多时间尺度电压调节的冗余的多智能体协同控制系统；在系统中使用多个智能体去执行相同的电压调节任务，然后通过冗余协调机制调整智能体的动作输出，最终将协调后的动作应用于有源配电网；冗余协调机制包括建立冗余协调矩阵、多个智能体之间动作的协调以及冗余协调矩阵的更新；

步骤5.建立智能体的训练过程；将经过训练好的智能体，结合冗余的多智能体协同控制系统，应用于有源配电网的电压控制，实现多时间尺度电压调节。

2.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述步骤1中，建立的配电网电压优化模型，包括：有源配电网的线路特征模型、有载调压器模型、电容器组模型、在光伏发电系统处安装的逆变器模型、在风力发电系统处安装的逆变器模型以及电储能系统模型；

该配电网电压优化模型用于计算各条线路在时间范围T内的有功损耗之和以及配电网节点数和各节点的实时电压值，其中为电储能系统模型使用了安全模块机制。

3.根据权利要求2所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述中，电储能系统模型的公式如下：min max

其中，Ei 、Ei 为储能系统的最小和最大储能水平；分别表示在t、t‑1时刻节点i处储能系统的电量含量；表示t时刻位于节点i的储能系统充电功率；表示储能系统最大的充电功率；表示储能系统最大的放电功率；表示t时刻位于i节点的储能c d系统的放电功率；ηi表示节点i处储能系统充电时的设备效率；ηi表示节点i处储能系统放电时的设备效率；Δt表示时间步长；T表示时间范围，N为配电网节点数；

使用安全模块机制将电储能系统模型进行优化，优化公式如下：其中，和分别表示在t+1、t时刻节点i处储能系统的电量含量。

4.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述步骤2具体为：步骤2.1.时间尺度控制网络的建立；

基于Dueling Deep Q‑Network算法进行设计，将Q值分解为状态价值和优势函数两个部分，状态价值函数和优势函数，使用一个共享的前馈神经网络进行特征提取；

针对快速网络和慢速网络，分别建立前馈神经网络hfast、hslow：其中，st为状态输入；W1、W2为权重矩阵，b1、b2为偏置项；下标1和下标2表示神经网络的层数即1表示第一层神经网络、2表示第二层神经网络；ReLU为激活函数；

将神经网络参数用θ表示，即：

θ＝{W1,b1,W2,b2}；

fast fast fast fast fast slow slow则有快速网络参数θ ＝{W1 ,b1 ,W2 ,b2 }和慢速网络参数θ ＝{W1 ,slow slow slow

b1 ,W2 ,b2 }；

针对快速网络和慢速网络分别建立状态价值函数Vfast(st)和Vslow(st)：其中，表示快速网络中用于计算状态价值网络的网络参数，为权重矩阵，为偏置项；表示慢速网络中用于计算状态价值网络的网络参数，同样为权重矩阵，为偏置项；

下标1和下标2表示神经网络的层数即1表示第一层神经网络、2表示第二层神经网络；

针对快速网络和慢速网络分别建立优势函数和其中，表示快速网络中用于计算优势价值网络的网络参数，为权重矩阵，为偏置项；表示慢速网络中

用于计算优势价值网络的网络参数，同样为权重矩阵，为偏置项；

下标1和下标2表示神经网络的层数即1表示第一层神经网络、2表示第二层神经网络；

针对快速网络和慢速网络分别建立Q值函数和其中，表示快速网络的动作空间；表示快速网络下一时刻动作，且表示慢速网络的动作空间；表示慢速网络下一时刻动作，且和是所有动作的优势函数的平均

值，用于归一化优势值，确保Q值的计算更加稳定；

快速网络的输出通过tanh函数将Q值转换为连续动作值afast，将动作映射到[‑1,1]范围；

afast＝tanh(Qfast)；

慢速网络的输出通过argmax操作从离散动作集合中选择最优动作；其中1,2,…,N表示有载调压器OLTC的档位或者电容器CB接入ADN的组数：步骤2.2.动作的拼接；在多时间框架下，快速网络和慢速网络分别在不同的时间尺度上交替生成快速动作和慢速动作；具体如下：其中，n和m分别为连续动作和离散动作的个数；表示快速网络的新动作集合，表示慢速网络的旧动作集合，表示慢速网络的新动作；

表示快速网络的新动作集合内容，表示慢速

网络的旧动作集合内容，表示慢速网络的新动作集合内容；

在时间计数器的作用下，快速网络每个时间步都会输出新的动作值，而慢速网络需要等待计数器的激活信号；慢速网络受到计数器的激活信号以后才会输出新的动作值，在没有收到计数器的激活信号时候输出上一次更新的动作，即原来的旧动作；

对快速网络的动作集合和慢速网络的动作集合进行堆叠，在t时刻智能体i的动作ai,t为：

5.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述步骤4具体为：步骤4.1.冗余协调矩阵的建立；

设有L个智能体，初始的冗余协调矩阵C0为一个L×L的单位矩阵；

以上公式表示在最初，每个智能体只参考自己的动作，彼此没有影响；

步骤4.2.多个智能体之间动作的协调；

在某个时刻t，智能体l的动作表示为一个向量al,t，l∈L；

将所有智能体的动作进行拼接形成一个维度为L×(n+m)的冗余动作矩阵，冗余动作矩阵通过通讯矩阵Ct进行协调，产生协调后的动作其中Ct是第t时刻的冗余协调矩阵，表示每个智能体对其他智能体动作的影响权重；n和m分别为连续动作和离散动作的个数；

步骤4.3.冗余协调矩阵的更新；

冗余协调矩阵在每次执行完动作后，会根据系统的性能进行更新；

系统的性能指标为奖励rt；

每次更新时，矩阵会加入噪声∈，然后根据性能rt调整矩阵：Ct+1＝Ct+∈·rt；

其中，噪声∈是一个服从正态分布的随机矩阵：其中，σ表示正态分布的参数，为了确保通讯矩阵中的权重在预设的合理的范围内，并保持每一行的和为1，通讯矩阵需要进行归一化处理；

假设第t+1步的矩阵更新完毕后，新的矩阵为Ct，归一化处理过程如下：其中，Ct+1(K,J)表示矩阵Ct+1第K行第J列的元素，Ct+1(K,J)'为归一化后的矩阵。

6.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述步骤5中，在训练过程中，快速网络和慢速网络分别使用各自的目标Q网络来更新Q值，则目标Q值和的计算公式如下：其中r是即时奖励，γ表示折扣因子；

表示快速控制目标Q网络在输入st+1时输出所有可能动作的Q值，从fast

这些动作中选择能最大化Q值的动作a '，然后将这个最大化的Q值用于计算目标Q值；

表示慢速控制目标Q网络在输入st+1时输出所有可能动作的Q值，从slow

这些动作中选择能最大化Q值的动作a '然后将这个最大化的Q值用于计算目标Q值；

为了优化快速网络和慢速网络的网络参数，对两个网络分别使用目标Q值和Q值建立损fast slow失函数Lfast(θ )和Lslow(θ )，然后使用梯度下降法来最小化损失函数；

fast

其中η是学习率，表示期望值，表示快速控制Q网络在网络参数θ下，在状态为st时采取动作获得的Q值；表示慢速控制Q网络在网络参数slow

θ 下，在状态为st时采取动作获得的Q值，是快速控制Q网络的损失函数关于fast slow参数θ 的梯度；是慢速控制Q网络的损失函数关于参数θ 的梯度；

fast

为了稳定训练过程，快速控制目标Q网络的参数θ '和慢速控制目标Q网络的slow参数θ '不是在每次训练步骤中都更新的，而是每隔预设数量的时间步，从当前快速控Qfast slow网络的参数θ 和慢速控制Q网络参数θ 复制过去，即：fast fast

θ '←θ ；

slow slow

θ '←θ ；

在Dueling Deep Q‑Network算法中引入的优先经验回放如下：经验回放存储了经验元组(st,at,rt,st+1)，通过经验评价函数赋予不同经验元组不同的优先级，从而优先选择对学习过程影响更大的经验进行回放和训练；

在每次向缓冲区中存储新的经验时，计算其误差，并根据误差为每个经验分配一个优先级；对于第h组经验，其经验评价函数ph为；

ph＝|r+γmaxQtarget(st+1,a')‑Q(st,at)|+∈；

其中，maxQtarget(st+1,a')表示目标Q网络输入st+1，输出所有可能动作的Q值，从这些动作中选择能最大化Q值的动作a'然后将这个最大化的Q值用于计算目标Q值；

maxQtarget(st+1,a')的值由和求平均值得来；

Q(st,at)表示Q网络在网络参在状态为st时采取动作at获得的Q值；

Q(st,at)的值由和平均求得；

第h组经验对应的经验采样的概率P(h)为：表示对所有经验的优先级求和用于归一化每个经验的优先级；u是缓冲区中的经验总数；在更新Q网络时采用一个重要性采样权重wi修正被采样的样本，其计算过程如下：β是控制权重平滑性的参数；

在Dueling Deep Q‑Network算法中引入的汤普森采样如下：汤普森采样通过随机抽样将探索和利用自然结合在一起，即使某个动作的当前平均奖励较高，由于其分布存在不确定性，其他动作仍有可能被抽取到；

因此，动作的选择会根据其不确定性进行动态调整，具体步骤如下：设每个动作ah的奖励rh分布为Beta分布：P(rh)～Beta(αh,βh)；

其中，P(rh)表示动作ah的根据奖励rh的分布，参数αh、βh分别表示成功次数和失败次数，初始值为1；每当需要选择动作时，从每个动作的后验奖励分布中抽样，选择带有最高奖励的动作，即在给定状态s下，从每个动作的奖励分布Beta(αh,βh)中进行抽样，生成每个动作*的一个样本值δh，然后选择样本值最大的动作a，即：对于每个动作ah，从其对应的Beta分布中抽样一个值：δh～Beta(αh,βh)；

其中，δh是从Beta分布中抽取的样本值，然后选择样本值最大的动作：*

a＝argmaxhδh；

根据动作的奖励r来更新对应的Beta分布参数；

如果奖励r是正数，则增加该动作的成功次数αh：αh←αh+max(0,r)；

如果奖励r为零或负数，则增加该动作的失败次数βh：βh←βh+max(0,1‑r)。

7.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，所述步骤5中，训练分为多时间尺度的动作过程即执行基于单层马尔科夫构建的多时间尺度决策过程和网络参数更新过程，具体如下：基于单层马尔科夫构建的多时间尺度决策过程如下：在某一时刻，有源配电网通过有源配电网电压优化模型，将配电网的状态输入给用于多时间尺度控制的智能体，智能体的时间计数器根据时间尺度输出控制信号用于快速网络和慢速网络的激活，智能体的快速网络和慢速网络根据状态随机的给出控制动作，两个网络动作整合以后，使用冗余协调机对动作进行协调，然后将这个动作作用于有源配电网电压优化模型，配电网根据具状态转移原理完成状态的更新；此时用新状态求得一个奖励值；

在这个过程中将配电网的状态st、作用于有源配电网电压优化模型的动作at、奖励值rt、新状态st+1组成经验元组(st,at,rt,st+1)，然后使用经验评价函数对经验元组进行评价，得到一个经验元组的评价结果，根据评价结果的好坏将经验元组存放到经验回放机制中；

反复进行这个过程直至到达经验回放机制的上限；

然后进行智能体网络参数更新过程，具体如下：从经验回放机制中提取小批量的经验元组；然后根据奖励和动作建立动作的奖励分布然后依据动作的奖励分布选取用于更新参数的动作；根据智能体的内部结构完成网络参数的更新；同时根据动作at和奖励值rt更新冗余协调机制调的协调矩阵。

8.根据权利要求1所述的基于深度强化学习的多时间尺度电压调节方法，其特征在于，在步骤5中得到训练完成的智能体和冗余协调机制调的协调矩阵，智能体的网络参数和协调矩阵在训练好之后固定不变，有源配电网电压优化模型将状态输入给训练好的智能体，智能体给出控制动作，经过冗余协调机制调的协调矩阵以后直接作用于有源配电网电压优化模型，即依据单层马尔科夫构建的多时间尺度决策过程完成控制。

9.基于深度强化学习的多时间尺度电压调节系统，用于实现如权利要求1至8任一项所述的基于深度强化学习的多时间尺度电压调节方法；

其特征在于，所述基于深度强化学习的多时间尺度电压调节系统包括如下模块：模型建立模块，用于对存在大量可再生能源的有源配电网进行建模，建立有源配电网电压优化模型；

智能体搭建模块，用于建立含时间序列特性的拥有连续动作和离散动作特性的智能体；

智能体包括两个网络，分别是用于有载调压器、电容器组调度的在小时级别的时间尺度上进行离散控制的慢速网络，以及用于逆变器、电储能系统调度的在分钟级别的时间尺度上进行连续控制的快速网络；智能体的快速网络和慢速网络又有两个内部网络，分别定义为快速控制Q网络、快速控制目标Q网络、慢速控制Q网络、慢速控制目标Q网络；

交互过程描述模块，使用单层马尔科夫构建多时间尺度决策过程，用于描述有源配电网电压优化模型和智能体的交互过程，并引入配电网状态、快速网络状态以及慢速网络状态；

多智能体协同控制系统构建模块，用于提出一种用于有源配电网的基于深度强化学习的多时间尺度电压调节的冗余的多智能体协同控制系统；

在系统中使用多个智能体去执行相同的电压调节任务，然后通过冗余协调机制调整智能体的动作输出，最终将协调后的动作应用于有源配电网；

以及有源配电网的电压控制模块，用于将经过训练好的智能体，结合冗余的多智能体协同控制系统，应用于有源配电网的多时间尺度电压控制，实现多时间尺度电压调节。