买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于相关冗余变换与增强学习的多维度协同控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于相关冗余变换与增强学习的多维度协同控制方法

￥25000

专利号： 2017114071684

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-04-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于相关冗余变换与增强学习的多维度协同控制方法，其特征在于：该方法包括以下步骤：S1：多源异构信息特征统一与融合；

S2：采用基于POMDP模型的控制状态策略引导；

S3：采用基于深度增强学习的控制状态引导策略优化；

S4：采用基于总线的分布式底层控制；

所述步骤S2具体为：采用多源异构融合技术获得的商务旅居房车各类设备的控制状态，建立POMDP模型以感知、适应、追踪设备控制状态的变化；通过POMDP模型的内部作用器给设备控制状态施加动作，以引起设备控制状态发生变化，并获得一定回报；根据获得的累计回报来衡量所执行一系列策略的可能性，进而将商务旅居房车的设备控制问题转换成策略选择问题；具体地，POMDP模型描述为{S,A,T,O,Q,β}，综合环境状态在POMDP模型概率分布中的置信状态表示为B＝{bt}，其t时刻的概率分布为bt＝{bt(s1),...,bt(Sm)}；其中，bt(si)表示t时刻环境状态为Si的概率；通过对当前时刻控制环境的观察与动作的选择，POMDP模型推导出下一时刻控制状态的置信值；假设起始时刻的置信状态为b0，执行动作a与观察O，获得下一时刻置信状态b1；当处于控制状态S1，模型获得的观察为O1，模型内部状态为i1；

通过计算，根据控制状态引导策略选择相应的动作a1，导致环境状态从S1转移到S2，模型获得回报r1与观察O2，此时模型内部状态从i1(b1)转移到i2(b2)，然后模型依此继续运行；

具体地，构建问题的引导策略估计函数实现对话状态跟踪，该函数为

其中，是对应

节点n的动作向量状态s的值；通过控制状态策略演化，得到下一时刻

的控制状态引导策略函数，其中表示最优策

略，Vt*表示上一时刻的策略函数；

所述步骤S3具体为：根据POMDP模型得到商务旅居房车设备控制状态的引导策略，采用基于深度增强学习DQN的策略优化方法来选择最佳行动策略；具体地，采用Q-网络(Q(s,a；

θ))定义行为策略，利用目标Q-网络(Q(s,a；θ-))生成DQN丢失项的目标Q值，以及重新记忆POMDP模型用于训练Q网络的随机采样状态值；通过增强学习定义POMDP模型的预期总回报其中，回报rt由每个时间步长的因子γ＝[0,1]折算，T是终止步骤；采用动作值函数Qπ(s,a)观察状态St的预期回报，并利用神经网络Q(s,a)＝(Q(s,a；θ-))近似动作值π函数；对于基于动作a下的引导策略π，最优动作值函数Q (s,a)＝E[Rt|st＝a,a1＝a,π]通过策略实现；构建含有动作值 a的 Be l l m a n 方程通过调整Q-network对迭代的Bellman目标参数进行求解；

首先，DQN使用记忆重构，在POMDP模型的每个时间步长t内，将记忆元组et＝(st,at,rt,st+1)存放到记忆存储器Dt＝{e1,...,et}中；

其次，DQN分别维持两个独立的Q网络(Q(s,a；θ))和(Q(s,a；θ-))；当前参数θ在每个时间步长内进行多次更新，并在N次迭代之后被复制到旧参数θ-中；在更新迭代时，为了最小化相对于旧参数θ-的均方Bellman误差，通过优化损失函数来更新当前参数θ；对于每次更新i，从记忆

存储器D中单独采样获取记忆元组(s,a,r,s`)～U(D)；对于每个样本，通过随机梯度下降算法更新当前参数δ；下降的梯度g i 通过θ相对于θ- 的损失样本梯度求得；

最后，在每个时间步长t内，选择相对于当前Q-网络(Q(s,a；θ))的偏好行为动作；使用中心参数服务器来维护Q网络(Q(s,a；θ-))的分布式表示；同时，该参数服务器接收强化学习到的渐变信息，并在异步随机梯度下降算法的驱动下，应用这些渐变信息来修改参数向量θ-。

2.根据权利要求1所述的一种基于相关冗余变换与增强学习的多维度协同控制方法，其特征在于：所述步骤S1具体为：对多传感器网络环境下，多传感器异构信息通过经典相关分析算法CCA和同构相关冗余变换(IsomorphicRelevantRedundantTransformation,IRRT)算法分析，将多个异构信息映射到一个统一的、量纲可计算的空间，对特征信息进行统一表示后对信息进行融合。

3.根据权利要求1所述的一种基于相关冗余变换与增强学习的多维度协同控制方法，其特征在于：所述步骤S4具体为：设计基于存储器映射的数据通道的编址方式，综合考虑触发方式、时序和负载能力问题，协同多路开关与采样保持器，实现数据接口通道的共享；设计具有冗余结构的自主控制系统，智能解析融合决策所获得的控制指令，兼顾电源输出波动、电磁辐射和分布式电容电感干扰因素，完成车载设备的自主控制。