1.一种基于深度强化学习的物联网路由优化方法,其特征在于,包括:S1:将汇聚节点作为根节点,普通传感器节点作为子孙节点以树形结构进行组网,构建DODAG;
S2:进入数据传输阶段,传感器节点进行数据包收发操作;数据传输阶段结束后,唤醒Trickle定时器重置DIO间隔;
S3:进入路由优化阶段,所有节点根据DIO间隔广播DIO控制消息;
S4:传感器节点从汇聚节点下载最新模型参数;根据最新模型参数和邻居传感器节点的DIO控制消息进行路由选择并生成经验信息;将经验信息上传至汇聚节点;
S5:汇聚节点根据经验对Dueling DQN模型进行训练,更新模型参数;
S6:路由优化阶段结束后,冻结Trickle定时器;
S7:返回步骤S2,进行下一次路由选择周期,直到网络停止运行。
2.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述DIO间隔的最小值为路由优化阶段的持续时间长度。
3.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,进行路由选择并生成经验信息的过程包括:S41:根据邻居传感器节点的DIO控制消息获取路由度量信息并根据路由度量信息构建状态矩阵;
S42:根据最新模型参数和状态矩阵计算动作a,根据动作a进行路由选择并切换父节点;
S43:根据动作a和父节点的路由度量信息计算奖励值;
S44:根据状态矩阵、动作a和奖励值生成经验信息。
4.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,构建状态矩阵的过程包括:根据DIO控制消息获取邻居传感器节点的路由度量,包括ETX、HC、RE和QLR;根据路由度量在候选父节点中找出最高RE值的k个节点生成状态矩阵,若候选父节点数小于k,则将全部候选节点填入状态矩阵,余下条目用0填充;其中,矩阵大小为4行k列。
5.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述动作a由本地路由模块输入状态矩阵计算得出,表示数据传输阶段选择a值在状态矩阵中对应的节点作为父节点进行数据转发;其中a∈[0,k‑1],k表示状态矩阵列数。
6.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,计算奖励值的公式为:其中,r表示奖励值,Rank(Ni)表示节点i的rank值;a表示动作,k表示状态矩阵列数,m表示节点的候选父节点个数。
7.根据权利要求6所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,rank值的计算公式为:Rank(Ni)=Rank(p)+ω1QU(p)+ω2ECR(p)其中,Rank(Ni)表示节点i的rank值,Rank(p)表示节点i的父节点p的rank值,QU(p)表示父节点p的队列利用率,ECR(p)表示父节点能量消耗率,ω1表示第一权重,ω2表示第二权重。
8.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述汇聚节点部署有Dueling DQN模型,Dueling DQN模型包括估计网络和目标网络,估计网络和目标网络为网络结构相同的神经网络。
9.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述普通传感器节点部署有本地路由决策模块,本地路由决策模块与汇聚节点中的单个神经网络结构相同。