买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的物联网路由优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的物联网路由优化方法

￥21600

专利号： 2023100554872

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

更新日期：2025-07-25

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的物联网路由优化方法，其特征在于，包括：S1：将汇聚节点作为根节点，普通传感器节点作为子孙节点以树形结构进行组网，构建DODAG；

S2：进入数据传输阶段，传感器节点进行数据包收发操作；数据传输阶段结束后，唤醒Trickle定时器重置DIO间隔；

S3：进入路由优化阶段，所有节点根据DIO间隔广播DIO控制消息；

S4：传感器节点从汇聚节点下载最新模型参数；根据最新模型参数和邻居传感器节点的DIO控制消息进行路由选择并生成经验信息；将经验信息上传至汇聚节点；

S5：汇聚节点根据经验对Dueling DQN模型进行训练，更新模型参数；

S6：路由优化阶段结束后，冻结Trickle定时器；

S7：返回步骤S2，进行下一次路由选择周期，直到网络停止运行。

2.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，所述DIO间隔的最小值为路由优化阶段的持续时间长度。

3.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，进行路由选择并生成经验信息的过程包括：S41：根据邻居传感器节点的DIO控制消息获取路由度量信息并根据路由度量信息构建状态矩阵；

S42：根据最新模型参数和状态矩阵计算动作a，根据动作a进行路由选择并切换父节点；

S43：根据动作a和父节点的路由度量信息计算奖励值；

S44：根据状态矩阵、动作a和奖励值生成经验信息。

4.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，构建状态矩阵的过程包括：根据DIO控制消息获取邻居传感器节点的路由度量，包括ETX、HC、RE和QLR；根据路由度量在候选父节点中找出最高RE值的k个节点生成状态矩阵，若候选父节点数小于k，则将全部候选节点填入状态矩阵，余下条目用0填充；其中，矩阵大小为4行k列。

5.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，所述动作a由本地路由模块输入状态矩阵计算得出，表示数据传输阶段选择a值在状态矩阵中对应的节点作为父节点进行数据转发；其中a∈[0,k‑1]，k表示状态矩阵列数。

6.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，计算奖励值的公式为：其中，r表示奖励值，Rank(Ni)表示节点i的rank值；a表示动作，k表示状态矩阵列数，m表示节点的候选父节点个数。

7.根据权利要求6所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，rank值的计算公式为：Rank(Ni)＝Rank(p)+ω1QU(p)+ω2ECR(p)其中，Rank(Ni)表示节点i的rank值，Rank(p)表示节点i的父节点p的rank值，QU(p)表示父节点p的队列利用率，ECR(p)表示父节点能量消耗率，ω1表示第一权重，ω2表示第二权重。

8.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，所述汇聚节点部署有Dueling DQN模型，Dueling DQN模型包括估计网络和目标网络，估计网络和目标网络为网络结构相同的神经网络。

9.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法，其特征在于，所述普通传感器节点部署有本地路由决策模块，本地路由决策模块与汇聚节点中的单个神经网络结构相同。