利索能及
我要发布
收藏
专利号: 2024107854317
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,具体包括:对多功能雷达环境MFR进行建模,得到环境模型;

将MFR干扰决策问题定义为马尔可夫决策过程MDP;

基于环境模型的势能函数的重塑奖励理论将先验知识以重塑奖励的形式嵌入PPO模型,以引导智能体快速收敛,具体为:智能体接近目标状态时,势能函数值逐渐变小,所构造势能函数Φ(st)具有非负性,因此在重塑奖励函数中,当智能体状态符合领域先验信息时,重塑奖励函数将智能体接近目标状态时所损失势能作为正奖励,将远离先验信息目标状态时所增加势能作为负奖励,从而确保智能体能够沿着先验信息方向学习策略,由此构造如下重塑奖励函数:结合所构造奖励函数R1,R2以及重塑奖励函数U(st,st+1)以获得如下所示新的奖励函数从而加速智能体学习进程:R′1,2(st,st+1)=R1,2(st,st+1)+α·ΔU(st,st+1)                    (10)式中,R1,2(st,st+1)为原始奖励函数,ΔU(st,st+1)为势能变化,α为标量权重,用于调整势能变化对重塑奖励的影响程度;st为当前状态,st+1为下一状态;

使用LSTM代理PPO算法嵌入强化学习模型,用于捕捉回波数据的动态特征以有效刻画雷达工作状态,提升干扰决策精度和稳定性。

2.根据权利要求1所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,对多功能雷达环境MFR进行建模,具体为:MFR状态、复杂电磁环境以及干扰动作描述为包含如下元素的数学模型:MFR有限工作状态集S(s∈S),干扰机动作集合A(a∈A),依赖于状态转移的奖励集合R,收益函数R(st|at,st+1),由状态转移概率P(st+1|st,at)刻画的环境模型;干扰机发射干扰样式迫使雷达状态发生转移,从而干扰决策系统获得相应收益,迭代尝试以期最大化累计期望奖励从而获得最优干扰策略最终实现干扰目标。

3.根据权利要求1或2所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,马尔可夫决策过程MDP由四元组{S,A,P,R}定义,其中,S是状态集,将雷达工作状ω态记为si ,i=0,1,2,...,Ns,威胁程度从0到Ns依次下降,Ns为雷达工作状态数目,ω为雷达波形单元;A是动作集,表示为at={jam0,jam2,…jamI},I为动作数目;P为由当前状态st采取动作at到下一状态st+1的转移概率P(st+1|st,at);R为状态st、动作at及下一状态st+1给定条件下出所得收益的集合,具体由R1,R2表示:其中,Δ(st+1‑st)为雷达受到干扰影响迁移至新的雷达状态后威胁程度变化量,+100表示雷达状态已迁移至最优目标状态,send为威胁程度最低的目标雷达状态,R2为受到干扰影响的状态参数与干扰前参数的威胁程度变化量,如果威胁程度增大或不变则惩罚1反之奖励1, 表示状态参数归一化所得范数。

4.根据权利要求2所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,势能函数的重塑奖励理论的可行性验证,如下:根据Bellman方程可知,最优值函数表示为:

式中: 为最优值函数, 为下一个雷达状态所采取的动作的期望,s'为下一个雷达状态,γ为折扣因子,a'为下一个干扰机动作;

基于势能函数定义得:

式中: 同上定义;φ(s)为势能函数;Es'同上定义,此处为简写;γ φ(s')为下一个雷达状态的势能函数与折扣因子相乘;

基于势能函数差分形式F(s,a,s')=γ φ(s')‑φ(s)得:由此可得,当M'到达最优策略时,M'的动作价值函数 满足如下条件:

式中: 表示为M'的最优策略;

证明了M'最优策略与M相同,表明势能函数仅与状态相关,对同一状态下动作选择没有影响,因此势能函数的重塑奖励理论不改变强化学习的最优策略。

5.根据权利要求4所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,基于环境模型的势能函数通过求解逆向Bellman方程获得:具体地,状态st值函数表示如下:π

式中:V(st+1)为再策略π下获得的状态st+1值函数,γ为折扣因子;

量化状态st相对于目标状态send的“势能差”,设计如下反应状态转移能量变化的势能函数Φ(st):式中:U(st+1)为雷达状态st+1下的奖励重塑函数;π(at|st)则为策略网络所得策略;

上式逆转奖励函数Rt以确保重塑奖励函数U(st)随着智能体接近目标状态而单调下降,折扣因子γ的引入使得势能函数随时间推移合理衰减。

6.根据权利要求2所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,其特征在于,使用LSTM代理PPO算法嵌入强化学习模型,具体如下:首先基于全连接网络对侦察所得序列数据进行预处理,网络权重经由式(11)和(12)正交初始化:zt=W0st+b0                                (11)其中,W0为权重矩阵,其可正交初始化为W0=Q0D0,Q0为正交矩阵,D0为对角矩阵,b0为偏置向量,st为状态向量;

而后基于非线性函数σ激活zt,得

ht=σ(zt)=σ(W0st+b0)                           (12)激活所得ht作为LSTM输入,经由LSTM处理获得如下隐藏状态:

h′t=lstm(h′t‑1,ht)                              (13)其中,h′t为LSTM在时间步t的隐藏状态,h′t‑1为前一时间步的隐藏状态;LSTM的隐藏状态允许构成PPO框架的两个核心网络,即:价值网络Critic Network和策略网络ActorNetwork;

随后将所得隐藏状态输入价值网络和策略网络网络,得:

式中,V(st)为价值网络所得状态st长期价值, 和bv分别为价值网络的权重向量和偏置,π(at|st)则为策略网络所得策略, 和ba分别是策略网络的权重向量和偏置。

7.根据权利要求6所述基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法,策略CLIP网络通过其损失函数L (θ)并基于梯度下降算法进行网络的更新,价值网络通过损失函GAE数L (θv)并基于梯度下降算法进行网络更新,具体损失函数表示为:

式中,πθ(a|s)是状态s下选择动作a的概率, 为优势函数,ε为裁剪系数,用于限制策略更新尺度, 为优势函数估计值,θ为策略网络参数;

式中,θv为价值网络参数, 为价值网络输出的估计优势值,N为样本数量。

8.一种基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策系统,其特征在于,包括:建模模块,对多功能雷达环境MFR进行建模,得到环境模型;

定义模块,将MFR干扰决策问题定义为马尔可夫决策过程(Markov Decision Process,MDP);

嵌入模块,基于环境模型的势能函数的重塑奖励理论将先验知识以重塑奖励的形式嵌入PPO模型,以引导智能体快速收敛,具体为:智能体接近目标状态时,势能函数值逐渐变小,所构造势能函数Φ(st)具有非负性,因此在重塑奖励函数中,当智能体状态符合领域先验信息时,重塑奖励函数将智能体接近目标状态时所损失势能作为正奖励,将远离先验信息目标状态时所增加势能作为负奖励,从而确保智能体能够沿着先验信息方向学习策略,由此构造如下重塑奖励函数:结合所构造奖励函数R1,R2以及重塑奖励函数U(st,st+1)以获得如下所示新的奖励函数从而加速智能体学习进程:R′1,2(st,st+1)=R1,2(st,st+1)+α·ΔU(st,st+1)                    (10)式中,R1,2(st,st+1)为原始奖励函数,ΔU(st,st+1)为势能变化,α为标量权重,用于调整势能变化对重塑奖励的影响程度;st为当前状态,st+1为下一状态;

捕捉模块,使用LSTM代理PPO算法嵌入强化学习模型,用于捕捉回波数据的动态特征以有效刻画雷达工作状态,提升干扰决策精度和稳定性。