利索能及
我要发布
收藏
专利号: 2022101182374
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,所述抗干扰方法包括以下步骤:

S1,初始化生成Q网络和目标Q网络,将接收机生成的滤波向量作为动作,生成动作集;

其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量;

S2,基于以下策略选择动作:以概率 从动作集中随机选择接收滤波向量,以概率贪婪选择接收收益最大的滤波向量;为预设阈值限制,随学习过程推进逐渐减小;

S3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励;

S4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机;

S5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值;

S6,重复循环步骤S2至步骤S5。

2.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S1,生成动作集的过程包括以下步骤:S12,采用两个单独的神经网络分别生成Q网络 和目标Q网络 ,目标Q网络 拥有与Q网络相同的网络结构;每次训练,根据损失函数的更新公式来更新Q网络中的参数,目标Q网络中的参数在训练过程中不变;每训练N次,复制Q网络中的参数更新一次目标Q网络;

N为大于1的正整数;是当前状态,是权重,是当前状态所选的动作;

S12,将接收机生成的滤波向量作为动作,根据干扰信号到达方向角的变化来设定动作,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量,动作集A的大小根据干扰信号到达方向角的范围而变化。

3.根据权利要求2所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S12中,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量的过程包括以下步骤:

S121,利用MIMO通信设计波束成形,使信号与干扰加噪声比SINR 最大化:,

s.t.  ;

通过使干扰和噪声功率最小来设计接收滤波向量f,再计算预编码向量 ,同时生成较优的收发信机滤波向量;t表示发送机, 表示欧几里得范数;

S122,对接收到的干扰信号数据进行处理,估计下一时刻干扰信道的瞬时信道状态信息;设发送无人机不工作时,接收机接收到干扰和噪声信号为 ;n是加性高斯白噪声矢量,其元素服从独立同分布、均值为0方差为 的复高斯分布; 是接收机与干扰机之间的信道,j表示干扰机,r表示接收机; 表示干扰信号;  为干扰方为提升干扰性能的预编码向量,C表示复数域, 为C的 次方, 表示干扰机的天线数,干扰机干扰功率限制 ;表示为干扰符号;

S123,令 ,表示干扰机的概率,I为单位向量,对干扰和噪声信号进行处理, 的估计结果表示为: ,其中M为采样数, 表示向量或矩阵的共轭转置;

S124,对 进行处理,分解为干扰子空间 和噪声子空间 : ,为干扰的特征值对角矩阵;

S125,通过添加以下条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:,

s.t.  ;

其中 为接收机的阵列响应向量,  为发送机t到接收机r的到达方向角;

S126,将最优滤波向量表示为: ;对于通信方,假设收发信机之间通过信道估计知道它们之间的信道状态信息,求得估计的最优接收滤波向量,通过最大比传输方法来获得预编码向量,即 ;对于干扰方,考虑干扰机已知其与接收机之间已知信道状态信息的最坏情况,并运用最大比传输方法以提高干扰效果;

干扰机对接收机进行干扰,即 。

4.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S3中,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱的过程包括以下步骤:S301,将i时刻的空间谱表示为 ,其中 为空间谱在角度为180*s/S度时的观测值,S为空间角度分辨率, 表示向量或矩阵的转置;

S302,构建动态空间谱为 ,是状态,为动态空间谱;动态空间谱 的矩阵大小为h*S,h表示拥有h个时隙的空间谱数据;在i+1时刻,i+1的空间谱进入动态空间谱,同时删除较早的空间谱。

5.根据权利要求4所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S3中,接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励的过程包括以下步骤:S311,将MIMO信号用物理信道模型来表示,接收机r到干扰机j的离开方向角和到达方向角分别用 和 表示;接收机与干扰机之间的信道表示为:其中 为接收机与干扰机之间的路径损耗, 为接收机与干扰机天线之间的距离,为载波波长;

发送机和接收机的天线阵列响应向量用 与 表达:=

=

其中 和 表示天线间隔距离, 和 分别为接收机和干扰机的天线数;

S312,在信号传输阶段,接收机接收到的信号表示为:其中t为发送机, 表示为接收机期望接收到的有用信号, 表示为干扰信号,表示接收机的功率,表示干扰机的功率; 表示有用信号, 为发送波束成形向量,对于发送机而言,其发送功率有限制 ; 表示干扰信号, 为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制 ;和分别表示为发送符号和干扰符号,限制均为 ,E[·]表示期望函数,|·|表示标量的绝对值运算;n是加性高斯白噪声矢量;

S313,接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示:;

接收端输出的信号与干扰噪声的比值SINR为:其中,为解调门限,只有满足SINR> ,接收机才能正确解调接收到的信号;

S314,令 ,I为单位向量,采用  表示接收机接收到的所有干扰和噪声信号;传输速率表示为:。

6.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S4中,采用辅助机中的辅助经验作为新的实时经验补充更新接收机的过程包括以下步骤:

S41,初始化经验池D,容量为|D|,通过 ‑贪婪策略将其中部分经验填充至其中;初始化存放辅助经验的辅助机D1,容量为|D|,将未进入经验池D中的剩余部分经验导入辅助机D1;

S42,从D中随机抽取经验对Q网络进行训练;

其中,每经过k次迭代后,将辅助机D1的经验补充至经验池D,清空辅助机D1的经验;如果经验池D中经验数超过容量,删除经验池D中额外的时间最早的部分经验;k为大于1的正整数。

7.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤S5中,从接收机中对实时经验进行随机批次采样,计算并更新权重的过程包括以下步骤:

S51,在训练过程中,采用近似目标值 替代最佳目标值,其中r为奖励,为奖励性衰变系数, 为下一状态,为下一动作, 为第i‑1次训练过程中的网络权重参数; s为当前状态,a为当前动作,为第i次训练过程中的网络权重参数;

损失函数为:

对损失函数相对于权重进行微分,得到相应的梯度公式:;

S52,通过调整Q网络的权重 以减少贝尔曼方程中的均分误差。