1.一种基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,该方法包括:步骤S1,在仿真环境中建立数字开关电源的功率级电路模型和强化学习智能体;其中,功率级电路模型包括输入电源、开关管、滤波电路及输出端,强化学习智能体包括由执行者网络和批评家网络构成的执行者‑批评家网络,执行者网络用于接收观察器输出的状态向量,批评家网络用于评估执行者网络输出的控制策略;
步骤S2,基于强化学习智能体和功率级电路模型,采用对称高斯奖励函数SGRF,初始化SGRF参数的值,通过DDPG算法对执行者网络和批评家网络进行第一次强化学习训练,逐步减小奖励函数参数直至训练不收敛;
步骤S3,基于第一次强化学习训练好的执行者‑批评家网络的网络参数,采用非对称高斯奖励函数AGRF,初始化AGRF参数,通过DDPG算法对执行者‑批评家网络进行第二次强化学习训练,调整AGRF参数的值以消除启动阶段电压过冲;
步骤S4,基于第二次强化学习训练好的执行者‑批评家网络的网络参数,在功率级电路模型中引入负载突变事件,使用非对称高斯奖励函数AGRF,并固定SGRF参数和AGRF参数,通过DDPG算法对执行者‑批评家网络进行第三次强化学习训练,直至训练完成;
步骤S5,提取执行者‑批评家网络中执行者网络的网络参数构建数字开关电源的神经网络控制器,以实时控制输出电压的稳定性。
2.根据权利要求1所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,状态向量包含输出电压误差、误差积分及误差微分值,并输出占空比信号至功率级电路模型。
3.根据权利要求1所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,步骤S2具体包括:步骤S21,初始化执行者‑批评家网络,采用对称高斯奖励函数SGRF,并初始化SGRF参数的值为1;
步骤S22,执行数字开关电源启动事件;
步骤S23,使用DDPG算法对执行者‑批评家网络进行第一次强化学习训练;
步骤S24,若数字开关电源在执行者网络和批评家网络训练的过程中控制器控制下的输出电压 稳定在 ,则DDPG算法收敛;
步骤S25,将SGRF参数 减小0.05,重新进行步骤S23和步骤S24,并判断DDPG算法是否收敛;
步骤S26,若DDPG算法不收敛,则取上一个能收敛的SGRF参数 的值作为性能最优的SGRF参数 的值,并结束第一次强化学习训练;若DDPG算法收敛,则重复执行步骤S25,直至DDPG算法不收敛。
4.根据权利要求3所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,步骤S3具体包括:步骤S31,将第一次强化学习训练好的执行者‑批评家网络的网络参数导入至新的训练环境,采用非对称高斯奖励函数AGRF,SGRF参数 的值延续步骤S26中性能最优的SGRF参数的值,AGRF参数 的值初始设为0;
步骤S32,执行数字开关电源启动事件;
步骤S33,使用DDPG算法对执行者‑批评家网络进行第二次强化学习训练;
步骤S34,判断数字开关电源在执行者网络和批评家网络训练的过程中控制器控制下的输出电压 是否存在电压过冲;
若存在电压过冲,则将SGRF参数 的值增加0.5,重新进行步骤S33和步骤S34;若不存在电压过冲,启动阶段电压输出稳定上升,且进入下一步。
5.根据权利要求4所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,步骤S4具体包括:步骤S41,将第二次强化学习训练好的执行者‑批评家网络的网络参数导入至新的训练环境,采用非对称高斯奖励函数AGRF,SGRF参数 的值和AGRF参数 的值取第二次强化学习的最终值;
步骤S42,执行数字开关电源启动事件与负载突变事件;
步骤S43,使用DDPG算法对执行者‑批评家网络进行第三次强化学习训练,直至训练完成。
6.根据权利要求5所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,对称高斯奖励函数SGRF的表达式为:其中,为SGRF参数, 为输出电压, 为输出电压理想的输出参考值;
非对称高斯奖励函数AGRF的表达式为:
其中,为AGRF参数。
7.根据权利要求6所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,DDPG算法包括以下步骤:初始化执行者‑批评家网络的网络参数;
通过经验回放池存储训练数据;
迭代更新执行者‑批评家网络的网络参数以最大化累积奖励值,并同步更新执行者‑批评家网络的网络参数。
8.根据权利要求7所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,根据功率级电路模型、反馈控制回路中的模数转换器、训练好的数字开关电源神经网络控制器和数字脉冲宽度调制器,组成数字控制DC‑DC开关电源;其中,功率级电路模型根据上一时刻占空比的开关信号功率开关管进行导通和关断,以对输入电压 进行斩波;将斩波后的输入电压 通过电容C和电感L的滤波形成低于输入电压的输出电压 ,以完成电压从输入电压 到输出电压 的降压;
模数转换器将输出电压 转化为 值;并将 值与参考电压值 相减,输出电压误差 ;
将电压误差 的值、 的积分以及 的微分值作为观察器的输出向量,该向量作为训练好的数字开关电源神经网络控制器的
输入向量,奖励函数 以 作为输入变量;输入向量 经过执行者网络的计算,输出占空比信号 即功率开关管导通时间占开关周期的时间比例;
数字脉冲宽度调制器对占空比信号 进行调制,形成开关信号,并输出至功率级电路模型中的功率开关管,以调节功率开关管导通时间和关闭时间的比例,使当前时刻的输出电压 被调整。
9.根据权利要求8所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,负载突变事件包括:在输出电压稳定后,负载从空载跳变至重载并维持预设时间,再跳变回空载。
10.根据权利要求9所述基于强化学习的数字开关电源神经网络控制器训练方法,其特征在于,开关电源启动事件包括:启动过程指开关电源从非工作状态0V输出,到工作状态的转变。