1.一种智能反射面辅助的智能语义通信系统资源分配方法,其特征在于,所述方法包括如下步骤:步骤1:建立语义通信系统模型和建立IRS辅助语义通信系统模型;
步骤1‑1:建立语义通信系统模型;
设定DeepSC网络集合 引入语义相似度 和语义频谱效
率 发送方由语义编码器和信道编码器组成,接收方由语义解码器和信道解码器组成,物理信道模拟了真实的传输情况,包括IRS反射波束赋形、噪声,在接收端,接收到的信号通过信道解码和语义解码进行恢复,以获得目标文本,在发送端,传输文本可以表示为s=[s1,s2,...,si,...,sl],其中l是句子长度,si表示句子中的第i个词,句子s依次经过语义编码器、信道编码器、模拟信道、信道解码器、语义编码器进行传输,由DeepSC网络组成的语义通信网络集合可以表示为 每个DeepSC网络具有不同数量的语义符号输出;
步骤1‑2:建立IRS辅助的语义传输系统;
设置基站、K个用户及IRS的位置,对基站到IRS、IRS到K个用户、基站到K个用户之间的信道进行建模,获取信道增益,设置基站、K个用户及IRS的位置,对基站到IRS、IRS到K个用户、基站到K个用户之间的信道进行建模,获取信道增益,如下定义:T
所有通信节点建立三维笛卡尔坐标系,节点A位置可以定义为wA=[xA,yA,zA] ,其中每个位置表达式中的三个数分别表示对应的轴坐标,固定高度的基站有M根天线,固定位置的每个用户有一根天线,IRS配有E个反射单元用于增强频谱感知与次级传输,并且每个反射单元的相位可以由基站控制中心动态调整,定义从BS到用户的信道服从瑞利衰弱,从BS到IRS和从IRS到用户的信道服从莱斯衰弱,路径损耗被建模为PL=(PL0‑10τlog10(d/D0))dB,其中PL0=30dB,参考距离D0=1m,τ代表路径损耗因子,具体来说,从基站到用户的路径损耗因子为τbu,从基站到IRS的路径损耗因子为τbr,从IRS到用户的路径损耗因子为τru;
定义IRS阵元偏移为 Θ , 其中
代表了第e个反射阵元的振幅相关系数,φe∈[0,2π]代表了相位相关系数,定义基站到第k个用户的信道为 基站到IRS的信道为 IRS到第k个用户的信道为 定义子信道集合为 第k个用户的信道分配情况可以
被定义为ρk={ρk,1,ρk,2,...,ρk,c,...ρk,C},其中ρk,c∈{0,1}代表了第k个用户使用第c个子信道情况,如果第k个用户占用第c个子信道进行传输,ρk,c为1,否则,ρk,c为0,每个用户只能占用一个信道,信道数量和用户数量一致,定义基站通过第c个子信道向第k个用户发射的波束为fk,c;
从基站通过第c个子信道到第k个用户的传输速率可以表示为:
其中,B代表带宽资源,C代表子信道数量,hk代表基站到用户k的信道,gk代表IRS到用户k的信道,Θ代表IRS反射阵元系数,G代表基站到IRS的信道,fk,c代表基站通过信道c向用户k发射的波束赋形, 代表用户k处的噪声方差;
步骤2:获得资源分配优化问题,定义有效S‑SE(ES‑SE),如果没有达到给定语义相似度容忍值ξth的传输被视作无效传输,定义ηk,c代表第k个用户在第c个信道上是否达成给定语义相似度容忍值ξth,如果ξk,c>ξth,则ηk,c=1,否则,ηk,c=0,定义ES‑SE为Ψ,Ψ可以表示为:通过联合优化语义通信网络DeepSC选择、子信道分配、基站发射波束和IRS阵元反射因子,系统目标为最大化ES‑SE;
资源分配问题约束:第一个约束条件为用户占用子信道约束,每个用户和子信道只存在占用和不占用关系,且每个用户只能占用一个信道,即 且第二个约束条件为基站总传输功率不能超过最大传输功率,即
其中TP代表了基站最大传输功率,第三个约束为IRS反射阵元振幅和
相位约束,即 第四个约束为用户选择DeepSC约束,
每个用户和每个DeepSC网络间只存在选择和不选择,且每个用户只能选择一个DeepSC网络进行语义传输,即 和 第四个约束为最小ES‑SE约束,即Ψ≥Ψth, 其中ψth代表可容忍有效语义频谱效率;
步骤3:目标问题转化为马尔可夫问题,设定基站控制中心为智能体,设计状态空间st={at‑1,{hk,t},{ξk,t},ψt,rt}、动作空间at={ζt,ρt,Θ t,Ft}、回报函数和状态转移概率 建立强化学习模型,将IRS辅助语义通信系统中资源分配问题转化为马尔可夫问题,并提取资源分配问题中关键元素,建立强化学习模型,包括智能体、动作空间、状态空间、回报值模型、状态转移概率,设定基站控制中心为智能体,语义通信网络DeepSC选择、子信道分配、基站发射波束和IRS反射阵元组成动作空间,在t时刻,动作空间可以表示为:at={ζt,ρt,Θt,Ft},
其中,ζt代表DeepSC选择,ρt代表子信道分配,Ft代表基站发射波束,Θt代表IRS元素反射偏移,设定动作选择、信道因子、可达语义相似度、有效语义频谱效率、回报值组成状态空间,在t时刻,状态空间可以表示为:st={at‑1,{hk,t},{ξk,t},Ψt,rt},
其中,at‑1代表进入状态st前的动作选择,{hk,t}代表信道因子集合,{ξk,t}代表用户可达语义相似度集合,Ψt代表系统可达的有效频谱效率,rt代表回报值,在回报值函数设计中综合考虑可达有效语义频谱效率,语义频谱效率容忍值以及语义相似度容忍值,因此,回报值函数表示为:其中,Ψ代表系统可达ES‑SE,w1和w2为给定权重因子,uΨ和uξ,k分别表示系统没有达到语义频谱效率容忍值和用户k达到语义相似度容忍值的惩罚因子,可以表示为:其中,ψth代表有效语义频谱效率容忍值,ξth代表最低语义相似度,此外,使用代表状态st下执行动作at进入状态st+1的状态转移概率;
步骤4:利用基于D3QN‑SAC的混合算法联合优化语义通信网络DeepSC选择、子信道分配、基站发射波束和IRS阵元反射偏移,最大化有效语义频谱效率,具体包括以下步骤:步骤4‑1:设计基于D3QN‑SAC的智能资源分配算法;
步骤4‑2:语义通信系统预训练,获得语义相似度与真实信噪比之间映射关系表;
步骤4‑3:智能体与系统交互,获得训练经验;
智能体决策语义通信网络DeepSC选择,子信道分配,智能反射面阵元反射系数,基站发射波束,并输入IRS辅助语义通信系统,进入新系统状态,得到奖励值,智能体将每步迭代产生的新旧系统状态、动作选择、奖励值存入经验池;
步骤4‑4:算法参数更新;
当智能体与环境交互满足设定次数后,通过回放存储在经验池的经验,智能体以最小化损失函数为目标进行学习,通过反向梯度对网络参数进行更新,返回上述步骤4‑3至训练结束;
步骤4‑5:算法收敛,将各网络参数进行本地保存;
步骤5:利用基于D3QN‑SAC的智能资源分配方法求出信道分配、DeepSC选择、基站波束赋形以及IRS相位的次优解。