1.一种具有抗视觉干扰的表征强化学习方法,其特征在于,包括如下步骤:首先,从经验回放池中采样当前时刻智能体在环境中的图像观测样本、下一时刻智能体在环境中的图像观测样本、与当前动作以及当前时刻获得的奖励,作为训练集;
其次,利用随机漂移对训练集中当前时刻与下一时刻智能体在环境中的图像观测样本进行数据增广,并将增广后的图像观测样本输入至编码器模型,将所述图像观测样本编码为隐空间状态表征,得到当前时刻图像观测样本的隐空间状态表征,以及下一时刻图像观测样本的隐空间状态表征;
将当前时刻采取的动作与当前时刻隐空间状态表征输入到潜在动力学模型中,得到预测的下一时刻图像观测样本的隐空间状态表征;
将训练集中当前时刻隐空间状态表征与获得的奖励输入到基于t分布的嵌入式聚类模型中,并联合训练所述潜在动力学模型与基于t分布的嵌入式聚类模型,从而得到最优的隐空间状态表征;具体包括如下步骤:(1)计算预测聚类划分分布V={vik|i=1,2,…,N;k=1,2,…,K}与目标划分分布U={uik|i=1,2,…,N;k=1,2,…,K};
2 2
首先,构建数据到中心之间的距离dik=||zi‑ck||+||ri‑rk||;
2
||zi‑ck||表示当前时刻的图像观测样本的隐空间状态表征zi到其聚类中心ck的欧式距离;
2
||ri‑rk||表示当前时刻获得的奖励ri到其奖励中心rk的欧式距离;
其次,构建基于t分布的预测聚类划分分布 其中,i={1,2,…,N},k={1,2,…,K};N表示样本数量,K表示聚类个数;
然后,构建基于t分布的嵌入式聚类损失
最小化所述基于t分布的嵌入式聚类损失,并利用Sinkhorn‑Knopp算法计算得到目标划分分布U,表示为:
1/β
U=diag(p)·V ·diag(q)
其中,diag(p)表示将向量p转化为对角矩阵,对角线上的元素为向量p的元素,同样,(0)diag(q)也是对角矩阵;这里,给定初始化q =1K/K,然后p与q通过以下两个公式交替迭代得到: 其中m为迭代次数,1N与1K分别表示维度为N与K的全1向量;
(2)更新聚类中心 与更新奖励中心
然后,将当前隐空间状态表征、下一时刻图像观测样本的隐空间状态表征、当前动作与当前时刻获得的奖励作为强化学习模型的输入;训练强化学习模型,最终用于智能体的控制决策任务。
2.根据权利要求1所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,所述更新聚类中心 的方法是:利用梯度下降法更新聚类中心: 其中为聚类损失关于聚类中心ck的梯度。
3.根据权利要求1所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,所述更新奖励中心 的方法是:目标划分分布U固定后,根据最大化目标划分分布U的索引将隐空间状态表征划分为K个类别,然后通过取每个类别图像观测样本对应的平均奖励来设计奖励中心的更新公式;
采用指数滑动平均来更新奖励中心: 其中ζ表示预先设定的滑动系数,中间参数 定义为:
其中, 为指示函数, 表示最大化U的索引。
4.根据权利要求1‑3任一项所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,还包括,引入U的熵正则化项并对U进行约束,所述基于t分布的嵌入式聚类损失进一步修正为:其中, 为U的信息熵,β为预先设定的正则化参数。
5.根据权利要求1所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,还包括,构建基于对比学习的潜在动力学损失:其中, 表示预测的下一时刻的隐空间状态表征 与下一时刻的隐空间状态表征zi+1之间的cosine相似性度量,即 τ为预先设定的温度系数。
6.根据权利要求5所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,还包括,利用梯度下降法更新编码器模型参数 φ 与潜在动力学模型参数其中α为预先设定的学习率, 为潜在动力学损失的梯度。
7.根据权利要求1所述一种具有抗视觉干扰的表征强化学习方法,其特征在于,更新强化学习模型参数: 其中LRL表示强化学习损失,所述强化学习模型选用DrQ或其改进版本DrQv2。