买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法

￥19200

专利号： 2023103805834

申请人：南京邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法，其特征在于，所述方法包括如下步骤：步骤1：宽带频谱感知，

多IRS辅助宽带CR系统将频带分为C个子频带，分别对每个子频带进行感知，而感知的结果分为两种情况，即：步骤1‑1：子频带c处于空闲状态；

次级基站只能接收到噪声信号，即其中nc(t)表示均值为0，方差为的加性高斯白噪声，此时，次级网络可以使用子频带c进行信号传输；

步骤1‑2：子频带c处于忙碌状态；

次级基站接收到经过信道衰落的直射信号、反射信号以及加性高斯白噪声组合而成的联合衰落信号，即其中分别表示在子频谱c中从主基站到次级基站、从主基站到第r个IRS、从第r个IRS到次级基站的信道，表示感知阶段第r个

IRS的反射系数，和分别表示第r个IRS中第mr个反射元素的振幅和相移，其中假设反射振幅处于理想状态，即表示子频谱c的状态，表示子频谱c处于空闲状态，表示子频谱c处于忙碌状态，Pq表示主基站的传输功率，x(t)表示主基站发送的复基带信号，此时，次级网络不能再使用子频谱c进行信号传输；

步骤2：次级网络信号传输；

当检测到一个空闲子频带时，次级网络将其用于信息传输，并确定该频带内信息传输的可达速率，随后，计算了利用所有可用空闲子频带的次级网络传输信息的总可达速率；

步骤3：建立次级网络可达速率最大化问题框架，列出需要优化的目标以及约束条件；

步骤4：根据所提出的次级网络可达速率最大化问题框架建立马尔可夫过程；

步骤5：采用SAC算法对模型进行优化，直至其模型收敛；

步骤6：输出结果，得到次级网络的总可达速率。

2.根据权利要求1所述的一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法，其特征在于，所述步骤1包括：次级基站对每个子频带进行频谱感知，判断子频带目前所处状态，子频带c的检测概率与虚警概率的具体计算方法为：c

其中，η为检测阈值， N为次级基站天线数，τ为感知时间，fs为抽样频率，γc是在子频带c主基站发送到次级基站信号的接收信噪比，是目标检测概率，Q(·)是标准正态分布的右尾函数，通过使用IRS，主基站的信号强度对于系统检测阈值的影响几乎可以忽略不计，其检测阈值为：其中，是系统最大可容忍的虚警概率，δ是接近于零的常数，用来保证虚警概率不超过

3.根据权利要求1所述的一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法，其特征在于，所述步骤2包括：在检测到子频带处于空闲状态时，次级网络可以使用该子频带进行信号传输,假设子频带c处于空闲状态，次级基站使用子频带c传输给次级用户k的接收信号为：其中，分别表示在子频带c中从次级基站到第k个次级用户、从第r个IRS到第k个用户、从次级基站到第r个IRS的信道，表示传输阶段第r个IRS的反射系数，是在子频带c中第k个次级用户的波束赋形矢量，是在子频带c中次级基站向第k个次级用户发送的复基带传输信号，nk是均值为0，方差为的加性高斯白噪声，表示IRS的选择情况，表示向第k个次级用户传输信号时使用了第r个IRS，则表示向第k个次级用户传输信号时没有使用第r个IRS；

除此之外，还存在主网络正在使用子频带c但是次级基站发生了漏检的情况，在此种情况下，次级基站使用子频带c传输给次级用户k的接收信号为：其中，为主网络对次级用户k的干扰，其干扰信号为：其中，分别表示从主基站到第k个次级用户、从主基站到r个IRS的信道，根据上述两种情况，它们的信干噪比分别为：

发生上述两种情况的概率分别为：

所以在子频带c，第k个次级用户的可达速率为：

其中，T为感知阶段和传输阶段所占用的总时间，τ为感知阶段占用时间，分别表示子频带c 处于空闲状态和忙碌状态的概率，所有次级用户的总可达速率为：

4.根据权利要求1所述的一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法，其特征在于，所述步骤3包括：对信道分配、IRS的选择、感知时间、次级基站的波束赋形和IRS的相移进行联合优化，其问题框架为：C6:0≤τ≤T,

其中，是最小检测概率，是最大可容忍虚警概率，Pmax是次级基站最大发射功率，为次级用户k的最小可达速率，为主用户q的可容忍最大干扰功率，C3是在子载频c次级基站的最大传输功率约束，C4是次级用户最小速率需求，C5为主用户的最大可容忍干扰，C6为感知时间约束，C7和C8为非凸单位模量约束，C9表示信道占用情况，C10表示每个用户能至少占据一个信道进行信号传输，C11是智能反射面的使用情况，C12表示从次级基站向次级用户发送信息时至少使用一个IRS。

5.根据权利要求1所述的一种基于深度强化学习的多IRS辅助宽带CR系统资源优化方法，其特征在于，所述步骤4包括：将这个离散‑连续优化问题视为一个马尔可夫决策过程问题，将多IRS辅助宽带CR系统作为环境，将IRS的中心控制器作为代理；

一个马尔可夫决策过程问题还包括状态空间、动作空间、转移概率和奖励函数；

状态空间：状态空间应该包括所有决定动作的参数和在上一个时隙的动作，即时隙t时(t)刻的所有通信链路的信道状态信息，以及在t‑1时隙的动作，因此，在时隙t的状态空间s(t‑1) (t)＝{a ,H }；

(t)

动作空间：在时隙t的动作空间a 由两部分组成，即由信道分配、IRS的选择和感知时间组成的离散动作空间和由次级基站波束覆型和IRS的反射系数组成的连续动作空间(t+1) (t) (t) (t) (t)转移概率：Pr(s |s ,a )是状态转移概率，其代表在状态s 下采取动作a ，状态(t+1)变为s 的概率；

奖励函数：在保证次级用户最小可达率要求的条件下最大化次级用户的总可达率，同时确保主用户受到的干扰小于最大可容忍干扰，所以奖励函数为r＝μ1Rs+μ2δk+μ3δi，其中μ1，μ2，μ3为常数；

其中，使用off‑policy，且动作空间既包括离散动作(τ,ρ,γ)，也包括连续动作(W,θt,θs)，所以应该使用随机策略；

采取的强化学习方法为软动作‑评价(SAC)算法。