利索能及
我要发布
收藏
专利号: 2021110336678
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模接入网络选择装置,其特征在于:包括:终端信息感知模块:用于在每个时隙开始阶段,感知终端自身的状态信息,通过对微处理器缓存内容的分析,获取终端时隙t的可用费用Ft,并将信息提供给接入网络选择判决模块;

业务特性感知模块:用于周期性地对业务数据流和协议进行分析解析,感知各业务性能参数,包括传输带宽、时延、时延抖动和丢包率的阈值,同时根据业务对各性能参数的敏感程度确定参数敏感系数,并将感知的参数阈值以及参数的敏感系数分别发送至信息处理模块、接入网络选择判决模块;

网络信息收集模块:通过不同网络端口周期性的获取网络状态信息,包括可用带宽、连接时延信息,并将收集的网络状态信息发送至信息处理模块,将网络接入费用信息发送至接入网络选择判决模块;

信息处理模块:用于将业务性能参数划分为收益类和成本类,并对参数进行归一化处理,得到各参数归一化值,并发送至接入网络选择判决模块,所述收益类包括带宽和信号强度,所述成本类包括时延和丢包参数;

接入网络选择判决模块:用于在数据预处理模块对数据进行预处理,在DQN训练模块定义系统状态、动作和即时奖励,建模长期优化目标;还用于训练DQN模型,基于DQN模型确定接入网络选择策略。

2.一种多模接入网络选择方法,其特征在于:包括以下步骤:S1:终端信息感知模块实时感知收集终端信息,并将终端特性发送至接入网络选择判决模块;

S2:业务特性感知模块对用户业务特性进行实时感知,并发送至信息处理模块以及接入网络选择判决模块;

S3:网络信息接收模块实时接收可用网络状态信息,并发送至信息处理模块及接入网络选择判决模块;

S4:信息处理模块对终端特性、业务特性以及网络状态信息进行处理,将处理结果发送至接入网络选择判决模块;

S5:接入网络选择判决模块接收各模块发送的信息,执行接入选择方法,确定最优接入网络选择策略,并发送至相应的网络接口。

3.根据权利要求1所述的多模接入网络选择方法,其特征在于:在所述步骤S1中,终端信息感知模块获取终端时隙t的可用费用Ft,并将信息发送至接入网络选择判决模块。

4.根据权利要求1所述的多模接入网络选择方法,其特征在于:在所述步骤S2中,定义bt为时隙t任务到达标识,bt=1表示时隙t有任务到达,bt=0表示时隙t无任务到达;业务特性感知模块对业务进行识别,感知各业务性能参数,包括传输带宽、时延、时延抖动和丢包率的阈值,定义 分别表示时隙t用户业务对第j个业务性能参数需求阈值上限及下限,1≤t≤T,1≤j≤J,其中,T为最大时隙数,J为业务性能参数数量;同时根据业务对各性能参数的敏感程度确定参数敏感系数,令ωj,t表示时隙t业务对第j个业务性能参数的敏感系数,1≤t≤T,1≤j≤J。

5.根据权利要求1所述的多模接入网络选择方法,其特征在于:在所述步骤S3中,网络信息收集模块通过接入网络端口获得接入网络参数,令pi,j,t表示时隙t接入网络i对应的第j个性能参数指标,1≤i≤M,1≤j≤J,1≤t≤T,其中,M为接入网络数量。

6.根据权利要求1所述的多模接入网络选择方法,其特征在于:在所述步骤S4中,信息处理模块接收业务特性及网络状态信息,将业务性能参数划分为收益类及成本类参数,并对参数进行归一化处理,令Vi,j,t表示pi,j,t归一化值,有

7.根据权利要求1所述的多模接入网络选择方法,其特征在于:在所述步骤S5中,接入网络选择判决模块根据终端特性、用户业务特性及网络状态信息,采用基于深度Q网络(deep Q network,DQN)的接入网络选择方法,具体为:定义系统状态、动作和即时奖励,设立系统长期优化目标,基于DQN模型确定接入网络选择策略。

8.根据权利要求1所述的多模接入网络选择方法,其特征在于:所述定义系统状态、动作和即时奖励,设立系统长期优化目标,具体为:确定状态集合S,st∈S,st为时隙t的状态,定义为:其中i表示时隙t终端接入网络i,1≤i≤M,Vi,t=[Vi,1,t,…,Vi,j,t,…,Vi,J,t]表示时隙t第i个网络参数的归一化值集合,ωt={ω1,t,...,ωj,t,...,ωJ,t}表示时隙t终端业务对第j个性能参数的敏感程度集合;

表示时隙t终端业务队列需传输的业务量,建模为:其中, 为指示函数,若ωt+1≠ωt为真,则 否则为0, 表示终端业务队列的最大长度;确定动作集合A,at∈A,at为时隙t的动作,定义at=i表示在时隙t选择接入网络i;

定义状态为st时接入网络i对应的即时奖励为:其中, 表示终端在时隙t接入网络i所获得的服务质量(Quality of Service,QoS),Tj,t表示终端用户时隙t对第j个性能参数可容忍的参数偏移度, 表示在时隙t切换到网络i的费用,ωf,ωa,ωg表示各项权重;

建模长期收益为:

其中γ为折扣因子且γ∈[0,1];

建模优化问题

9.根据权利要求1所述的多模接入网络选择方法,其特征在于:设立系统长期优化目标,基于DQN模型确定接入网络选择策略,具体包括:S51:设置DQN训练过程中所需的参数,包括学习率、折扣率;

S52:初始化DQN模型中主Q网络的参数θ和目标Q网络的参数θ';

S53:获取经验,并存储在经验回放池中;

S54:从经验回放池D中随机选取转移样本,输入至神经网络;

S55:计算主Q网络和目标Q网络的损失函数,更新参数θ和θ'。

10.根据权利要求1所述的多模接入网络选择方法,其特征在于:步骤S53将当前状态st输入至主Q网络,获取所有动作对应的Q(st,at;θ),根据贪婪策略选取动作at,获取即时奖励rt,状态转移到st+1,获取转移数据

步骤S55所述神经网络输出Q(sτ,aτ;θ)及 计算损耗函数利用后向传播法,梯度更新θ,周期地令θ'=θ,完成网络参数更新。