1.一种基于逆扩散引导策略的离线强化学习方法,其特征在于,包括以下步骤:建立扩散模型网络εθ、扰动网络ξω以及逆扩散引导策略网络 建立两个相互独立的价值网络 和 和 分别表示价值网络1和价值网络2;利用扩散模型表达行为策略,从行为策略支持集内采样动作;
初始化网络参数,包括:
i i‑1
扩散时间步i、第i步的扩散动作a 、第i‑1步的扩散动作a 、状态s、扩散模型网络参数θ、扰动模型参数ω、逆扩散引导策略网络参数 价值网络1参数v1和价值网络2参数v2;
所有网络均为含有两个隐藏层,且隐藏层神经元数量为256的多层感知机结构;网络参数的初始化方式为随机初始化;
分别建立扰动网络、逆扩散引导策略网络和两个独立价值网络对应的目标网络和和 分别表示扰动网络、逆扩散引导策略网络、价值网络1和价值网络2对应的目标网络参数,各个目标网络结构与所对应的原网络结构一致;
目标网络参数的初始化方法为:将所对应的原网络参数 直接赋值给目标网络参数训练逆扩散引导策略引导采样过程,通过单次采样过程直接获得行为策略支持集内的最优动作;在最优动作位于行为策略支持集外时,给采样出的动作添加可训练扰动;
所述的训练逆扩散引导策略引导采样过程包括:利用经验池中的经验样本迭代更新扩散模型网络参数、价值网络参数、逆扩散引导策略网络参数、扰动网络参数以及各目标网络参数,使损失函数最小且目标函数最大;
通过更新得到的逆扩散引导策略网络引导扩散模型网络生成最优动作,获得最优策略;引导过程如下:根据逆扩散引导策略网络采样得到逆扩散初始动作,将逆扩散初始动作输入到扩散模型网络,生成得到最优动作;
利用经验池 中的经验样本(s,a)对扩散模型网络参数θ进行更新,更新方法为通过梯度下降法最小化如下的损失函数:其中, 表示扩散模型网络损失函数, 表示期望符号,U表示离散集{1,…,N}上的均匀分布,N表示最大扩散步,ε表示预定义噪声,~表示采样操作, 表示标准高斯分布, 表示预定义加噪系数,a表示从经验池中采样出的动作;
利用经验池 中的经验样本(s,a,s′)对价值网络参数v1和v2进行更新,更新方法为通过梯度下降法最小化如下的损失函数:0
其中, 和 分别表示价值网络1和价值网络2的损失函数,a表示更新价值网络参数时采样的下一动作,s′表示经验池中的下一状态, 表示价值网络1在输入为(s,a)时的输出, 表示价值网络2在输入为(s,a)时的输出, 表示经过引导的扩散模型目标网络在s′处的输出,r表示奖励函数,γ为超参数,表示回报折扣率,0
表示值函数目标k的输出, 表示扰动模型目标网络在输入为(s′,a)时的输出;
利用经验池 中的经验样本对逆扩散引导策略网络参数 和扰动网络参数ω进行更新,更新方法为通过梯度上升最大化如下的目标函数:其中, 和 分别表示逆扩散引导策略网络和扰动网络的目标函数;
表示 或
为价值网络1在输入为 时的输出;
为价值网络2在输入为 时的输出;
0
表示经过引导的扩散模型网络在s处的输出,ξω(s,a)表示扰动模型网络在输入0
为(s,a)时的输出。
2.根据权利要求1所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,更新目标网络的参数时采用如下的更新方式:首先,分别计算: 然后,
将上述计算的结果分别赋值给: 和 其中, 表示目标网络更新率。