1.一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:该方法包括以下步骤:步骤A,利用标准化流技术,构造基于反例样本分布的非负的未标准化的目标概率分布函数,基于该目标分布训练标准化流模型;
进行标准化流模型的训练方法如下,
a.根据具体的受控约束连续动力系统,设置系统的状态空间的全域取值范围、初始区域和不安全区域的范围,以及设置系统的动力学方程组;
b.构造三组满足反例样本分布的非负的未标准化的目标概率分布函数,分别对应初始域约束,非安全域约束和lie导数约束上反例样本的分布情况;
所述三组目标概率分布函数分别为 和 其相应的对数概率如
下,
式中:α~Uniform(0,1),constant c1,c2>0,λ(x)是辅助函数,G(x)是范围函数,使得概率分布函数只关注目标范围内的概率分布情况,B(x)为障碍函数;
c.进行第一阶段的冷启动训练,训练出相对正确的候选控制器和候选障碍函数,以及对应的标准化流模型;
步骤B,使用训练好的标准化流模型进行反例样本的采样,所述反例样本包含最违反条件约束的反例样本数据;
步骤C,将生成的反例样本,用于引导障碍函数网络进行更加精细化的修正训练,通过不断生成并补充反例样本,进行深度强化学习训练,最终学习到正确障碍函数。
2.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:步骤B中,如果候选障碍函数的损失函数Loss=0,即当前训练数据下的障碍函数合成成功,则使用标准化流模型生成最优反例样本,并进行最优反例验证;若满足障碍函数条件约束,则进行形式化验证并输出真实的障碍函数和安全控制器,否则使用反例样本引导障碍函数和强化学习执行进一步训练。
3.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:步骤C中,进行第二阶段的归纳迭代训练过程,强化学习的训练过程利用障碍函数的反馈信息,提供lie反馈式的奖励函数计算方法增强强化学习在违背lie条件的状态空间上的训练。
4.根据权利要求3所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:提供lie反馈式的奖励函数计算方法如下,式中:s(t)表示是当前时刻的系统状态,rmin>0是惩罚的阈值,避免奖励值变化过大,当前状态s(t)如果违反lie导数条件约束,则给予额外的惩罚,加强强化学习在该状态下的训练。
5.根据权利要求3所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:基于补充了反例样本的训练数据,将障碍函数网络进行更加精细化的训练,基于训练后的学习结果,若反例样本分布随之发生改变,则需要训练并更新标准化流模型,获得符合变化后的反例样本分布情况的模型。
6.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:步骤C中,通过不断生成并补充反例样本,直至反例验证和形式化验证通过,获得真实的障碍函数网络模型和安全控制器网络模型。
7.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:步骤C中,将最终得到的障碍函数进行形式化验证。
8.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法,其特征在于:步骤C中,在障碍函数的深度强化学习训练过程中,通过将最优反例样本介入智能体与环境交互过程中,改善控制器在反例点周围的行为策略。