利索能及
我要发布
收藏
专利号: 2023109497038
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种智能反射面辅助的矿山物联网安全卸载方法,其特征在于,为提高MMEC系统中矿山物联网设备的计算工作效率,利用IRS增强煤矿井下的为提升煤矿井下的信号覆盖范围和信道增益,以矿山物联网设备的工作以能量效率和计算时延为优化目标,选择将计算任务在本地进行计算或者通过卸载到边缘服务器进行计算,从而提升矿山物联网应用的数据处理效率;

具体步骤如下:

步骤1:针对煤矿井下典型的无线覆盖盲区问题,将智能反射面IRS加入到矿井移动边缘计算MMEC网络系统以增强信号覆盖范围并提供稳定可靠的无线链路,具体构建一个IRS辅助的MMEC网络系统,矿山物联网设备通过IRS建立的虚拟卸载链路将更多的计算任务卸载到边缘服务器,利用IRS可调控的反射特性来优化信号的传播,增强信号覆盖范围并提高卸载链路的信道增益;

步骤2:针对矿山物联网应用中待处理的计算任务不仅数据密集而且时延敏感的情况,设计矿山物联网设备的计算卸载效益函数同时考虑提高能量效率并降低计算时延,为IRS辅助的MMEC网络系统中矿山物联网设备的计算卸载过程中能量损耗和计算时延问题进行建模,通过联合设计IRS反射相移和计算卸载率以实现最大化计算卸载效益函数的优化目标;

步骤3:由于在煤矿井下很难准确获取实时的无线通信模型和信道状态信息,因此将IRS辅助的矿山物联网设备的动态计算卸载过程和IRS相移调整过程建模成马尔科夫决策过程MDP,分别将IRS辅助的MMEC网络系统和矿山物联网设备作为环境和学习代理Agent;此外,为了保证满足计算时延阈值要求的矿山物联网安全通信,保障实时性数据处理与事故应急响应,提出基于风险评估的安全强化学习方法,最终构建IRS辅助的矿井移动边缘计算MMEC网络系统的安全强化学习模型;

步骤4:利用DDPG算法优化上述安全强化学习模型,在复杂多变的矿山通信环境中动态探索安全计算卸载策略,设计合理的IRS反射相移与计算卸载率,实现最优计算卸载效益的目标;

步骤1具体包括:

步骤1.1:煤矿井下封闭复杂的环境特征以及煤尘/矿石吸收干扰信号传输都导致严重的无线覆盖盲区问题,从而矿山物联网设备与边缘服务器之间的LoS无线通信信号损耗严重,甚至影响矿山物联网通信安全;通过在MMEC系统中引入IRS,将IRS布置在矿井巷道墙面或者综采面的顶部,利用IRS可调控的反射特性,实现虚拟卸载链路,即矿山物联网设备通过IRS的两段反射路径传输计算任务,从而提高信号传输的可靠性和覆盖范围,最终增强卸载信道质量;

步骤1.2:具体对IRS辅助的MMEC网络系统的计算卸载过程建模:设一个IRS辅助MMEC系统,MMEC架构是基本的点对点通信系统,由一个矿山物联网设备和一个配备MEC服务器的接入点AP组成;

IRS硬件平面包含了N个无源反射元件的IRS反射单元并被布置在接近AP的矿井巷道墙面;只考虑IRS反射元件第一次反射的信号分量,并且设IRS元件工作时相互之间没有信号耦合或联合处理,并且独立地反射入射信号;通过IRS可调控的反射特性,矿山物联网设备端发出的信号经过IRS反射元件反射到达接入点AP后与矿山物联网设备端发出的直射信号相互叠加;在IRS辅助MMEC系统中,计算任务通过两段反射链路和直射链路叠加的无线链路卸载,即等效信道增益h为:

其中,hd、hg=[hg,1,…,hg,N]T分别表示直射路径和两段反射路径的窄带等效平坦信道,*表示共轭转置符号;/>表示IRS反射系数对角矩阵,θn∈[0,2π)表示复反射系数的相移;同时,可实现的最大无线传输数据速率R为:

其中,B表示带宽;p为信号发射功率;σ2为加性高斯白噪声的噪声功率;

矿山物联网设备在时隙k内将L(k)x(k)bit计算任务量通过上述无线链路卸载卸载至AP,并由内部的MEC服务器处理计算任务,其中x(k)(0≤x(k)≤1)为卸载率,当x(k)=0时,矿山物联网设备本地处理全部计算任务;当x(k)=1时,矿山物联网设备将所有计算任务卸载至AP处理;当0≤x(k)≤1时,该矿山物联网设备将L(k)x(k)bit数据卸载至AP处理,同时剩余的(1-x(k))L(k)bit数据在本地进行处理;

步骤2具体包括:

步骤2.1:具体分析IRS辅助MMEC网络系统能量损耗和计算时延模型:矿山物联网设备采用部分卸载方案,具体将L(k)x(k)bit数据卸载至AP处理,剩余的(1-x(k))L(k)bit数据在本地处理,所以考虑本地计算和计算卸载过程的能量损耗和计算时延问题;

设fl和φ分别表示矿物联网设备处理1bit任务的CPU频率和所需CPU周期数;fe表示MEC服务器处理1bit任务的CPU频率;令和/>分别表示物联网设备在时隙k内本地计算的计算延迟和能量损耗,表达式如下:

式中v为有效电容系数;

令和/>分别表示任务卸载产生的时延和能耗,表达式如下:

步骤2.2:对能量效率和总计算延迟具体建模:在时隙k内本地计算和任务卸载的总能量损耗通过/>得到,所以计算卸载过程的能量效率为/>此外,在部分卸载方案中IRS辅助MMEC网络系统需要并行处理本地处理计算任务和卸载处理计算任务,因此定义总计算延迟为/> 计算卸载方法需要保证计算任务的实时性,从而确保矿山的安全和高效运营;同时又需要考虑能量资源限制的问题;定义由能量效率和计算时延共同组成的计算卸载效益函数,表达式如下:

式中正系数ω1和ω2分别表示能量效率和总计算延迟的权重参数,用于平衡效用函数的影响效果;

最后,将最大化计算卸载效益函数作为计算卸载方法的优化目标,即:

公式中,约束(a)是IRS反射系数矩阵中的相移取值范围;约束(b)是部分计算卸载过程的卸载率取值范围,优化目标为一个高维连续策略优化问题,有限取值的相移和卸载率以及都使得该优化问题具有非凸性;

步骤4中,针对公式中IRS辅助MMEC系统中的高维连续策略优化问题,提出基于DDPG的矿山物联网计算卸载机制,基于步骤3中的安全强化学习模型,利用DDPG算法得到最优任务卸载策略,以实现步骤2中的优化目标,具体包括如下步骤:步骤4.1、初始化DDPG算法的相关学习参数,包括学习率α、折扣因子γ、记忆池大小、OU噪声软更新学习率κ(κ<<1)、批量大小Z、回合数以及回合内探索步长;初始化DDPG算法中的Actor网络参数/>及Critic网络参数/>通过将/>和/>赋值给Target Actor网络和Target Critic网络的网络参数/>完成Target网络参数的初始化,随机给出初始IRS辅助的矿井移动边缘计算MMEC网络系统的环境状态/>之后进行回合探索以及网络训练;

步骤4.2、进行回合内的一步探索,Actor网络基于当前输入的初始化系统状态s(k)输出确定性策略然后,矿山物联网设备基于/>和OU过程采样得到的噪声/>选择计算卸载策略a(k),具体公式如下:

矿山物联网设备执行计算卸载策略,即设计反射相移θ(k)和卸载率x(k),并根据公式-评估得到奖励U(k),即计算卸载效用值,并根据公式得到动作约束函数Γ(k);然后根据计算卸载过程观察IRS辅助的MEC系统状态更新得到下一步状态s(k+1);具体来说,计算任务量大小和移动物联网设备的位置信息通过马尔科夫链转移,重新估计获取该位置的环境信道状态信息;随后,将更新前后的系统状态、写在策略、奖励和动作约束函数值这些元素组成计算卸载经验(s(k),a(k),r(k),s(k+1),Γ(s(k),a(k)))存储到经验池;

步骤4.3、判断经验池的计算卸载经验数是否达到z;若没有,则直接跳转至步骤4.4,继续探索累计计算卸载经验,直至计算卸载经验不断累计达到Z组;若有,则基于经验回放技术,矿山物联网设备从经验池中随机采样Z组计算卸载经验,即(sh,ah,rh,sh+1,Γ(sh,ah)),h∈[1,Z],并利用这些计算卸载经验迭代更新四个神经网络参数,包括Actor网络参数Critic网络参数/>Target Actor网络参数/>Target Critic网络参数/>其中用Adam优化器作为梯度下降算法更新Critic网络参数/>具体公式如下:

通过确定性策略梯度上升方法来更新Actor网络参数具体公式如下:

Target Actor网络参数和Target Critic网络参数/>则以学习率κ(κ<<1)进行软更新来放慢对Actor网络参数和Critic网络参数的追踪速度,具体软更新过程如下:

步骤4.4、最后,判断时隙数是否达到最大回合内训练步长数,若没有,则令下一步状态s(k+1)为新的初始化系统状态s(k),回到步骤4.2;若有,则结束回合训练。

2.根据权利要求1所述的一种智能反射面辅助的矿山物联网安全卸载方法,其特征在于,步骤3中,复杂的井下无线通信环境面临着电磁干扰、煤尘雾气吸收信号、大型移动设备阻挡的困难,导致难以准确获取实时的信道状态信息并设计IRS反射相移;此外,公式中联合设计反射相移和卸载率的优化问题具有非凸性,所以传统的优化技术无法有效解决动态复杂环境下的公式中的优化问题;

为了能适应复杂的通信环境和实时变化的信道条件,将信道状态信息和计算任务需求信息的获取以及IRS反射相移转换建模为有限状态离散马尔可夫过程MDP,并构建IRS辅助的矿井移动边缘计算MMEC网络系统的环境状态、动作及奖励函数,得到强化学习模型如下:分别将IRS辅助的MMEC网络系统和矿山物联网设备作为环境和学习智能体;设IRS辅助的MMEC网络系统的状态由时隙k的计算任务量大小L(k)、移动物联网设备在时隙k处的位置信息C(k)和IRS辅助MMEC系统在时隙k-1处估计的信道状态信息CSI:/>组成;/>表示所有计算卸载策略集合,即包括所有可能的动作a的动作集合;在时隙k内,动作/>为计算卸载策略,在IRS辅助的MMEC网络系统中为a(k)=[x(k),θ(k)],其中,/>表示N个IRS反射元件在时隙k处的相移,x(k)(0≤x(k)≤1)为卸载率;将计算卸载效益函数U(k)作为系统奖励r(k);

由于矿山物联网设备利用强化学习随机探索卸载策略时存在超过安全阈值的计算时延风险,因此为了保证满足计算时延阈值要求的矿山物联网安全通信,保障实时性数据处理与事故应急响应,提出基于风险水平评估的安全强化学习方法,构建IRS辅助的矿井移动边缘计算MMEC网络系统的安全强化学习模型;

通过使用风险水平函数Γ(s(k),a(k))评价状态-动作对的风险水平,其中s表示状态,a表示动作;将基于风险评估的安全探索与强化学习RL相结合,在动态探索计算任务卸载策略得到最大的计算卸载效益函数的同时,保证满足时延阈值要求,避免了应急管理数据处理延迟问题导致的矿山安全事故;在安全强化学习方法中,执行动作a后将评估得到的总计算延迟Tt与设定的时延阈值Tmax,Tmid,Tmin相比较的结果作为风险水平评估,即定义在时隙k状态s(k)下执行动作a(k)相对应的风险水平函数Γ(s(k),a(k))如下:

其中,根据实际矿山物联网应用场景与应急管理安全准则设定对应的时延阈值;

在安全强化学习模型中,策略函数μ(s(k),a)的选择同时考虑状态-动作对的价值Q(s(k),a)和风险水平Γ(s(k),a(k)),具体为:

其中,表示状态s(k)下所有可能选择的计算卸载策略,状态-动作对的价值越高且风险水平越低的策略更容易被选择。