利索能及
我要发布
收藏
专利号: 2022106344360
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的网络数据采集效率优化方法,其特征在于,包括:将采集到的信息与路由规划影响特征参数进行对比,选择对路由规划影响权重更高的特征状态数据集;

建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型;

通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型。

2.根据权利要求1所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,将包括网络连接状态、电台频率、工作模式、带宽、端到端时延的特征状态信息记为特征状态集 ;计算业务特征 和路由影响因子 两个特征集的对称不确定性,通过对称不确定性将特征集 按照与集合 的相关性从大到小排序,从而获得特征集 。

3.根据权利要求2所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,假设特征状态集为 , 可描述路由规划影响因子的k维特征属性,可描述数据样本的m维特征属性;集合 和 重叠的部分被定义为:

是特征状态数据集 的信息熵, 是已知特征集 的情况下,特征集 对 的条件熵, 代表 的值取为 时的边缘概率分布, 代表 的值取为 时的边缘概率分布, 是 的联合分布概率;

固 定路 由 规 划 影 响 因 子 ,计 算 互 信息 ,将 互 信 息 集 记 为;

在特征状态集 和路由影响因子集 两个特征集之间计算对称不确定性 ,通过对称不确定性将特征集 按照与集合 的相关性从大到小排序,从而获得对路由规划影响最大的特征;

两个特征集之间对称不确定性 的定义如下所示:

其中 为信息增益,  为特征状态集X

的信息熵,E(Y)特征状态集Y的信息熵, 表示特征集Y对特征集X进行划分后的条件熵; 的取值范围在0与1之间;

计算每个特征 与 之间的相关性,记为 ,用于判断一个特征是否与类别相关;通过序列浮动前向选择算法在大量候选特征 中利用阈值 进行初步筛选,获取与目标类别相关的特征子集 , 满足 ;将 中各特征 按照值的大小进行降序排列,根据 的排序结果定义特征信息状态更新频率;然后取互信息集F与特征子集 的交集 , 满足 ,剔除冗余特征后,使 描述的相关度达到最优并按相关性从大到小排列。

4.根据权利要求3所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,所述的建立动态多服务台队列模型,具体为:设网络中独立终端被记 ,终端将不断收集网络信息,定期将这些信息发送至服务器 ,服务器收到信息后对路由组网过程进行全局规划;不同类型的数据对路由决策的影响程度不同,在给定路由影响因子 后,计算 与 的互信息集与对称不确定性,得到按影响路由规划权重从大到小排列的特征数据集 ;

独立终端 设置信息处理模块,时刻 获得特征数据集 包含的网络特征信息,将特征数据包记为 以不同的信息更新频率分布 向 发送 状态更新心跳包, 服从负指数分布,且互相独立;

假设服务器 的队列单元,满足M/M/h/R多处理队列混合制模型,从独立终端 发送的特征状态信息xi的到达率服从参数为 的负指数分布,节点 关于所有状态特征信息更新的到达率为 ;处理队列数量为 ,的处理队列服务率服从参数为 的负指数分布,系统的剩余队列资源容量为 ;当 未被完全占用且暂时无法提供服务时,特征状态信息将进入队列等待;当 被完全占用后,系统将发生丢包;

计算稳态条件下 的队列长度的分布 ,特征 的到达率和服务率满足以下方程:

记 ,当 时,

其中

对多队列排队系统,稳态条件下可得服务器 对特征数据 的平均排队长 为:特征数据 的平均等待时间为:

5.根据权利要求4所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,结合队列模型构建异质特征数据信息年龄模型,具体为:特征信息 在 时刻进入 的接收队列,记该服务时间为 ,为独立终端 的发送时延, 为 与 的传输时延;特征信息 在 时刻被响应,记该服务时间为 ; 代表特征下次状态更新的时刻,记该等待时间为 ;

给定特征信息 的信息年龄过程 并假设其遍历性,通过收敛至其相应随机的样本均值来建立平均信息年龄模型;在时间区间[0, T]内,每个特征数据 的状态更新的平均信息年龄为:在趋向于无穷大时,可认为 ;

是下一次特征数据的发送时延, 是下一次特征数据等待处理的时延,是离散条件下 的面积,特征信息 的平均信息年龄为:。

6.根据权利要求5所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,提供深度强化学习模型对多目标进行联合优化,在第t次迭代时,根据不同特征数据更新频率 ,计算服务器状态更新队列平均长度 以及特征数据的信息年龄 ,优化路由后网络系统平均传输时延 ,丢包数 ,建立问题约束模型,代表算法迭代次数,计算各特征数据信息年龄对路由规划的影响,根据路由决策的结果设计奖励函数,确定收敛目标;优化问题被记为以下约束:Minimize:

Subject to:

7.根据权利要求6所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,基于深度强化学习的车际移动自组网信息采集间隔优化框架将特征数据 的更新频率视为一个智能体,将网络路由结果的平均时延、丢包数,服务器队列长度视为状态E;

每个训练周期中共迭代 次,智能体获取初始环境状态E0,之后执行动作 对 的更新频率进行随机加权分配;执行动作后,智能体获得环境相应的奖励值 ,并继续观察下一时刻状态 ;

环境状态表示为两个部分:服务器接收特征数据 时的处理队列长度记为R(t),以及当前时刻的信息年龄 ;系统在接收到数据之后,系统按照现有状态将做一次路由规划,规划完成后计算系统的平均传输时延 ,总丢包数 ,当前时刻t的系统状态 可表示为:

对于 ,系统在时刻t的动作 被定义为:

价值函数被定义为 ,学习参数 为满

足 的常数; 是系统收益奖励函数,系统的动作 将会使 发生改变,对于车载移动自组网的数据信息采集系统,存在特征数据 的更新频率 使得系统的收益为:其中, , 是算法总共迭代的次数,定义 为不同

特征数据的信息年龄在迭代一次后效果的差值,同理可得服务器状态更新队列平均长度、丢包数、平均传输时延的差,累加整个迭代周期的差值作为系统收益奖励函数。

8.一种基于深度强化学习的网络数据采集效率优化系统,其特征在于,包括:特征数据分析模块,用于将采集到的信息与路由规划影响特征参数进行对比,选择对路由规划影响权重更高的特征状态数据集;

处理队列与信息年龄构建模块,用于建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型;

深度学习求解模块,通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑7中任一所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑7中任一所述的方法的步骤。