利索能及
我要发布
收藏
专利号: 2023111546263
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,包括设备管理模块和算力管理模块;

所述设备管理模块用于对入网的物联感知设备进行配置下发和动态维护;

所述算力管理模块与所述设备管理模块连接,所述算力管理模块用于基于算力分配问题模型为所述物联感知设备分配算力资源。

2.根据权利要求1所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述控制后端还包括:数据收集模块、数据分析模块、告警模块和控制下发模块;

其中,所述数据收集模块与所述设备管理模块连接,所述数据收集模块用于收集和存储所述物联感知设备的感知数据;

所述数据分析模块与所述数据收集模块连接,所述数据分析模块用于基于所述感知数据进行判断与预测,得到异常数据;

所述告警模块与所述数据分析模块连接,所述告警模块用于基于所述异常数据对相应的所述物联感知设备发出告警命令;

所述控制下发模块与所述数据分析模块连接,所述控制下发模块用于向所述跨域物联感知设备集中管控系统的任意设备下发控制命令。

3.根据权利要求1所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述算力管理模块包括:模型构建单元和训练单元;

其中,所述模型构建单元用于构建算力分配问题模型;

所述训练单元用于对所述算力分配问题模型进行网络训练。

4.根据权利要求3所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述模型构建单元包括环境子单元、决策子单元和奖励子单元;

其中,所述环境子单元用于获取状态空间,所述状态空间包括:物联感知设备的任务数据量、任务执行所需消耗的浮点运算数、任务的最大可容忍时延、边缘计算节点的核心数量、边缘计算节点的队列积压数量;

所述决策子单元用于基于所述状态空间得到动作空间;

所述奖励子单元用于计算所述动作空间对应的奖励值。

5.根据权利要求4所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述奖励值的计算公式如下:pel

式中,rt 为时延奖励函数, 为任务 的实际完成时间, 为任务 的最大可容忍pel时延,coeft 为超时惩罚系数。

6.根据权利要求4所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述训练单元基于近端策略优化算法的深度强化学习对算力分配问题模型进行训练计算得到最优动作策略;

其中,所述训练单元的训练过程包括:

S1、初始化Actor网络的策略参数,获取初始随机策略;

S2、初始化经验池;

S3、获取当前时隙的状态向量;

S4、将所述状态向量输入到Actor网络中,基于随机策略输出决策动作;

S5、基于所述决策动作得到边缘计算服务器的任务执行时间和任务执行奖励值,并获取下一时隙的状态向量,基于所述当前时隙的状态向量、决策动作、任务执行奖励值和下一时隙的状态向量得到一个四元组,将所述四元组放入所述经验池;

S6、基于所述经验池的经验采用优化目标更新所述策略参数;

S7、重复步骤S2‑S6,直至所述任务执行奖励值收敛到最大值,得到最优算力资源分配策略。

7.根据权利要求6所述的SDN跨域物联专网感知设备管控算力资源分配系统,其特征在于,所述优化目标的计算公式如下:PPO CLIP

式中,θ表示策略参数,L 表示总优化目标,L (θ)表示截断的策略代理, 表V示动作熵,L (ω)表示值网络平方误差损失,c1和c2分别表示值网络平方误差损失和动作熵的系数。