1.一种基于RIS辅助的NOMA边缘计算动态任务传输功率分配方法,其特征在于,包括以下步骤:S1:构建RIS‑NOMA边缘计算任务传输系统,该系统包括:配备M根天线和MEC服务器的AP、K个单天线的UE、以及具有N个反射元件的RIS;通过控制RIS的相移改变AP和每个UE之间的信道增益;每个UE将计算任务划分为本地计算任务和边缘计算任务;每个UE采用上行NOMA分别通过UE‑RIS‑AP链路和UE‑AP链路同时将边缘计算任务传输到AP,AP接收到叠加信号,利用SIC技术进行解码并进行边缘计算;
所述AP接收到叠加信号包括:
其中, 为第k个UE的传输功率, 为均值和单位方差为零的传输信号,2
为以σ为噪声功率的AP端的加性高斯白噪声,IM是一个M×M的单位向量矩阵, 表示第k个UE到RIS的信道增益系数, 表示第k个UE到AP的信道增益系数,G表示RIS到AP的信道增t益系数,Θ 表示RIS的反射系数矩阵;
S2:根据UE动态任务到达及处理的过程构建排队模型,在队列长度约束下成立UE端总成本表达式;
所述构建排队模型包括:
S21:调整UE端芯片的电压控制UE端的CPU频率;
其中,g为有效的开关电容, 表示第k个UE的本地计算功率;
S22:根据UE端的CPU频率和UE端处理一bit任务数据所需的CPU周期数量计算UE端在单个时隙内本地计算的任务bit数量;
其中, 表示第k个UE端在第t个时隙内本地计算的任务bit数量,Lk表示第k个UE端处理一bit任务数据所需的CPU周期数量,τ0表示单个时隙的长度, 表示用户k的CPU频率S23:根据UE在RIS‑NOMA边缘计算任务传输系统中的数据传输速率计算UE端在单个时隙内传输到AP端的任务bit数量;
其中, 表示第k个UE端的数据传输速率, 表示第k个UE端在第t个时隙内传输到AP端的任务bit数量;
S24:根据UE端在单个时隙内本地计算的任务bit数量和传输到AP端的任务bit数量构建排队模型;
所述排队模型包括:
其中, 表示第t+1个时隙任务队列的长度, 表示在时隙t期间到达用户k的任务bit数, 表示在时隙t期间处理的总任务bit数;
所述UE在RIS‑NOMA边缘计算任务传输系统中的数据传输速率包括:其中,B表示系统的带宽, 表示第k个UE在时隙t内的信噪比,2
为波束赋形向量,σ为噪声功率, 为第k个UE的传输功率, 为第k个UE在t时隙内的总信道增益;
S3:利用惩罚理论加入惩罚因子将队列约束转换为稳定性表达式构建UE端总成本稳定表达式;
所述UE端总成本表达式包括:
其中,ω1∈[0,1]和ω2∈[0,1]为非负权重系数且满足ω1+ω2=1,T表示时隙最大值,即t∈{1,...,T},Ck表示UE端总成本表达式, 表示预定义的平均队列长度值,对于所有的UE,其平均队列长度不超过 为第k个UE的传输功率, 表示第k个UE的本地计算功率;
所述UE端总成本稳定表达式包括:
其中, V1表示为加权参数, 表示虚拟队列;
S4:根据马尔可夫的决策过程对RIS‑NOMA边缘计算任务传输过程进行建模得到基于RIS‑NOMA边缘计算任务传输的MDP模型;
所述基于RIS‑NOMA边缘计算任务传输的MDP模型Ξ包括: 其中, 象征状态空间, 为动作空间, 表示奖励, 为状态转移概率;
状态空间
其中, 表示信道状态, 表示用户队列任务数据bit数;
动作空间
其中, 表示本地计算功率集合 表示任务传输发射功率集合 表示无源相移器的相移集合
奖励
其中,C′k表示UE端总成本稳定表达式;
t
状态转移概率:设 表示状态转移概率,即给定状态s和所选择的动t t+1
作a后到达状态s 的概率分布;
S5:根据基于RIS‑NOMA边缘计算任务传输的MDP模型以UE端总成本最小化为目标利用DDQN算法计算得到最优的UE传输功率分配方案;
所述利用DDQN算法计算得到最优的用户功率分配方案包括:S51:指定奖励衰减因子γ,随机初始化Q网络的参数,构建DDQN方法所需的目标网络Q',目标网络Q'网络的网络结构及网络参数与Q网络相同,指定目标网络Q'网络的更新步长J;指定经验回放梯度批量下降的每批次采样样本数W,清空经验回放合集D;指定探索率ε;
t
S52:初始化系统环境,将初始化环境状态向量赋值给当前环境状态s;
t t
S53:将当前环境状态s作为输入向量输入Q网络,得到所有 对应的输出Q(s ,a);
t
使用ε‑greedy策略在输出中选择动作a,ε‑greedy策略:π表示策略函数;
t t t
S54:在当前环境状态的变量s下执行动作a,转换环境状态,得到动作执行后状态s 与t t t t t+1动作执行过程中的奖励反馈r,将过度序列(s ,a ,r ,s )存入经验回放合集D;
S55:使用均方差损失函数,采用随机梯度下降法更新Q神经网络参数;
S56:根据DDQN方法流程,每经过J轮迭代,更新目标网络Q'网络为Q网络,即更新网络参数;
t+1 t
S57:将动作执行后状态s 赋值给当前环境状态s,转至步骤S53进行下一轮迭代;
所述均方差损失函数如下:
t t‑
其中,Loss(θ)表示损失函数,θ表示Q神经网络参数,θ 表示目标网络Q'网络的网络参t数, 表示在Q网络中与状态s的Q最大值相关联的动作。