1.一种基于相关冗余变换与增强学习的多维度协同控制方法,其特征在于:该方法包括以下步骤:S1:多源异构信息特征统一与融合;
S2:采用基于POMDP模型的控制状态策略引导;
S3:采用基于深度增强学习的控制状态引导策略优化;
S4:采用基于总线的分布式底层控制;
所述步骤S2具体为:采用多源异构融合技术获得的商务旅居房车各类设备的控制状态,建立POMDP模型以感知、适应、追踪设备控制状态的变化;通过POMDP模型的内部作用器给设备控制状态施加动作,以引起设备控制状态发生变化,并获得一定回报;根据获得的累计回报来衡量所执行一系列策略的可能性,进而将商务旅居房车的设备控制问题转换成策略选择问题;具体地,POMDP模型描述为{S,A,T,O,Q,β},综合环境状态在POMDP模型概率分布中的置信状态表示为B={bt},其t时刻的概率分布为bt={bt(s1),...,bt(Sm)};其中,bt(si)表示t时刻环境状态为Si的概率;通过对当前时刻控制环境的观察与动作的选择,POMDP模型推导出下一时刻控制状态的置信值;假设起始时刻的置信状态为b0,执行动作a与观察O,获得下一时刻置信状态b1;当处于控制状态S1,模型获得的观察为O1,模型内部状态为i1;
通过计算,根据控制状态引导策略选择相应的动作a1,导致环境状态从S1转移到S2,模型获得回报r1与观察O2,此时模型内部状态从i1(b1)转移到i2(b2),然后模型依此继续运行;
具体地,构建问题的引导策略估计函数实现对话状态跟踪,该函数为
其中, 是对应
节点n的动作向量状态s的值 ;通过控制状态策略 演化 ,得到下一时刻
的控制状态引导策略函数,其中 表示最优策
略,Vt*表示上一时刻的策略函数;
所述步骤S3具体为:根据POMDP模型得到商务旅居房车设备控制状态的引导策略,采用基于深度增强学习DQN的策略优化方法来选择最佳行动策略;具体地,采用Q-网络(Q(s,a;
θ))定义行为策略,利用目标Q-网络(Q(s,a;θ-))生成DQN丢失项的目标Q值,以及重新记忆POMDP模型用于训练Q网络的随机采样状态值;通过增强学习定义POMDP模型的预期总回报其中,回报rt由每个时间步长的因子γ=[0,1]折算,T是终止步骤;采用动作值函数Qπ(s,a)观察状态St的预期回报,并利用神经网络Q(s,a)=(Q(s,a;θ-))近似动作值π函数;对于基于动作a下的引导策略π,最优动作值函数Q (s,a)=E[Rt|st=a,a1=a,π]通过策略 实 现 ;构建 含 有 动 作 值 a的 Be l l m a n 方 程通过调整Q-network对迭代的Bellman目标参数进行求解;
首先,DQN使用记忆重构,在POMDP模型的每个时间步长t内,将记忆元组et=(st,at,rt,st+1)存放到记忆存储器Dt={e1,...,et}中;
其次,DQN分别维持两个独立的Q网络(Q(s,a;θ))和(Q(s,a;θ-));当前参数θ在每个时间步长内进行多次更新,并在N次迭代之后被复制到旧参数θ-中;在更新迭代时,为了最小化相对于旧参数θ-的均方Bellman误差,通过优化损失函数来更新当前参数θ;对于每次更新i,从记忆
存储器D中单独采样获取记忆元组(s,a,r,s`)~U(D);对于每个样本,通过随机梯度下降算法更 新 当前 参数δ;下 降的 梯 度g i 通过θ相对 于θ- 的 损失 样本 梯 度求得;
最后,在每个时间步长t内,选择相对于当前Q-网络(Q(s,a;θ))的偏好行为动作;使用中心参数服务器来维护Q网络(Q(s,a;θ-))的分布式表示;同时,该参数服务器接收强化学习到的渐变信息,并在异步随机梯度下降算法的驱动下,应用这些渐变信息来修改参数向量θ-。
2.根据权利要求1所述的一种基于相关冗余变换与增强学习的多维度协同控制方法,其特征在于:所述步骤S1具体为:对多传感器网络环境下,多传感器异构信息通过经典相关分析算法CCA和同构相关冗余变换(IsomorphicRelevantRedundantTransformation,IRRT)算法分析,将多个异构信息映射到一个统一的、量纲可计算的空间,对特征信息进行统一表示后对信息进行融合。
3.根据权利要求1所述的一种基于相关冗余变换与增强学习的多维度协同控制方法,其特征在于:所述步骤S4具体为:设计基于存储器映射的数据通道的编址方式,综合考虑触发方式、时序和负载能力问题,协同多路开关与采样保持器,实现数据接口通道的共享;设计具有冗余结构的自主控制系统,智能解析融合决策所获得的控制指令,兼顾电源输出波动、电磁辐射和分布式电容电感干扰因素,完成车载设备的自主控制。