买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于最优反例和障碍函数的安全深度强化学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于最优反例和障碍函数的安全深度强化学习方法

面议

专利号： 2024118437971

申请人：西南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：该方法包括以下步骤：步骤A，利用标准化流技术，构造基于反例样本分布的非负的未标准化的目标概率分布函数，基于该目标分布训练标准化流模型；

进行标准化流模型的训练方法如下，

a.根据具体的受控约束连续动力系统，设置系统的状态空间的全域取值范围、初始区域和不安全区域的范围，以及设置系统的动力学方程组；

b.构造三组满足反例样本分布的非负的未标准化的目标概率分布函数，分别对应初始域约束，非安全域约束和lie导数约束上反例样本的分布情况；

所述三组目标概率分布函数分别为和其相应的对数概率如

下，

式中：α～Uniform(0,1),constant c1,c2>0,λ(x)是辅助函数，G(x)是范围函数，使得概率分布函数只关注目标范围内的概率分布情况，B(x)为障碍函数；

c.进行第一阶段的冷启动训练，训练出相对正确的候选控制器和候选障碍函数，以及对应的标准化流模型；

步骤B，使用训练好的标准化流模型进行反例样本的采样，所述反例样本包含最违反条件约束的反例样本数据；

步骤C，将生成的反例样本，用于引导障碍函数网络进行更加精细化的修正训练，通过不断生成并补充反例样本，进行深度强化学习训练，最终学习到正确障碍函数。

2.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：步骤B中，如果候选障碍函数的损失函数Loss＝0，即当前训练数据下的障碍函数合成成功，则使用标准化流模型生成最优反例样本，并进行最优反例验证；若满足障碍函数条件约束，则进行形式化验证并输出真实的障碍函数和安全控制器，否则使用反例样本引导障碍函数和强化学习执行进一步训练。

3.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：步骤C中，进行第二阶段的归纳迭代训练过程，强化学习的训练过程利用障碍函数的反馈信息，提供lie反馈式的奖励函数计算方法增强强化学习在违背lie条件的状态空间上的训练。

4.根据权利要求3所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：提供lie反馈式的奖励函数计算方法如下，式中：s(t)表示是当前时刻的系统状态，rmin>0是惩罚的阈值，避免奖励值变化过大，当前状态s(t)如果违反lie导数条件约束，则给予额外的惩罚，加强强化学习在该状态下的训练。

5.根据权利要求3所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：基于补充了反例样本的训练数据，将障碍函数网络进行更加精细化的训练，基于训练后的学习结果，若反例样本分布随之发生改变，则需要训练并更新标准化流模型，获得符合变化后的反例样本分布情况的模型。

6.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：步骤C中，通过不断生成并补充反例样本，直至反例验证和形式化验证通过，获得真实的障碍函数网络模型和安全控制器网络模型。

7.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：步骤C中，将最终得到的障碍函数进行形式化验证。

8.根据权利要求1所述的一种基于最优反例和障碍函数的安全深度强化学习方法，其特征在于：步骤C中，在障碍函数的深度强化学习训练过程中，通过将最优反例样本介入智能体与环境交互过程中，改善控制器在反例点周围的行为策略。