利索能及
我要发布
收藏
专利号: 2023100554872
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-07-25
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的物联网路由优化方法,其特征在于,包括:S1:将汇聚节点作为根节点,普通传感器节点作为子孙节点以树形结构进行组网,构建DODAG;

S2:进入数据传输阶段,传感器节点进行数据包收发操作;数据传输阶段结束后,唤醒Trickle定时器重置DIO间隔;

S3:进入路由优化阶段,所有节点根据DIO间隔广播DIO控制消息;

S4:传感器节点从汇聚节点下载最新模型参数;根据最新模型参数和邻居传感器节点的DIO控制消息进行路由选择并生成经验信息;将经验信息上传至汇聚节点;

S5:汇聚节点根据经验对Dueling DQN模型进行训练,更新模型参数;

S6:路由优化阶段结束后,冻结Trickle定时器;

S7:返回步骤S2,进行下一次路由选择周期,直到网络停止运行。

2.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述DIO间隔的最小值为路由优化阶段的持续时间长度。

3.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,进行路由选择并生成经验信息的过程包括:S41:根据邻居传感器节点的DIO控制消息获取路由度量信息并根据路由度量信息构建状态矩阵;

S42:根据最新模型参数和状态矩阵计算动作a,根据动作a进行路由选择并切换父节点;

S43:根据动作a和父节点的路由度量信息计算奖励值;

S44:根据状态矩阵、动作a和奖励值生成经验信息。

4.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,构建状态矩阵的过程包括:根据DIO控制消息获取邻居传感器节点的路由度量,包括ETX、HC、RE和QLR;根据路由度量在候选父节点中找出最高RE值的k个节点生成状态矩阵,若候选父节点数小于k,则将全部候选节点填入状态矩阵,余下条目用0填充;其中,矩阵大小为4行k列。

5.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述动作a由本地路由模块输入状态矩阵计算得出,表示数据传输阶段选择a值在状态矩阵中对应的节点作为父节点进行数据转发;其中a∈[0,k‑1],k表示状态矩阵列数。

6.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,计算奖励值的公式为:其中,r表示奖励值,Rank(Ni)表示节点i的rank值;a表示动作,k表示状态矩阵列数,m表示节点的候选父节点个数。

7.根据权利要求6所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,rank值的计算公式为:Rank(Ni)=Rank(p)+ω1QU(p)+ω2ECR(p)其中,Rank(Ni)表示节点i的rank值,Rank(p)表示节点i的父节点p的rank值,QU(p)表示父节点p的队列利用率,ECR(p)表示父节点能量消耗率,ω1表示第一权重,ω2表示第二权重。

8.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述汇聚节点部署有Dueling DQN模型,Dueling DQN模型包括估计网络和目标网络,估计网络和目标网络为网络结构相同的神经网络。

9.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述普通传感器节点部署有本地路由决策模块,本地路由决策模块与汇聚节点中的单个神经网络结构相同。