利索能及
我要发布
收藏
专利号: 2019109683270
申请人: 南京星耀智能科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:(1)构建网络模块结构

基于深度强化学习的深度Q学习网络DQN,构建包括控制模块、感知模块,其中控制模块与感知模块通过瓶颈层bottleneck layer连接;

(2)训练神经网络

采用对抗鉴别式迁移法进行训练,所述感知模块先通过已标记的拟态环境数据进行训练,在预训练过程中使用监督式的损失函数 其中m是样本数量级,Ij是样本的输入,yp(Ij)是Ij的标签,x*j是对Ij的预测,j是样本;预训练结束后,使用另一部分的拟态环境数据和真实环境的数据进行训练,训练中使用两个损失函数求和的方式进行反向传播,其中 是采用拟态环境数据进行监督式训练的损失函数,LPAd是采用真实环境数据进行监督式训练的损失函数,

其中D是监督函数,Er

是目标编码器target encoder拟态环境数据集的损失,Es是目标编码器target encoder真实环境数据集的损失, 是拟态环境下的输入样本, 是真实环境下的输入样本;

(3)做出实时决策

经过步骤(2)中训练后,完成拟态环境下模型的迁移,通过使用摄像头传感器的数据获取实时的战场环境,做出实时决策。

2.根据权利要求1所述的基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:所述控制模块,用于学习到给定物体的位置,获得图像中的物体的运动参数,包括运动的方向、角度、速度。

3.根据权利要求1所述的基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:所述感知模块,用于从原始的RGB图像中获取图像中物体的位置信息参数。

4.根据权利要求3所述的基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:所述感知模块包括编码器encoder子模块、回归regressor子模块,编码器encoder子模块包含了所有的卷积层结构,回归regressor子模块包含了所有的全连接层结构。

5.根据权利要求4所述的基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:编码器encoder子模块包括有源编码器source encoder和目标编码器target encoder;所述源编码器source encoder经过拟态环境数据进行训练之后,将权重固定,并且在对抗鉴别式迁移中作为一个参考,用于训练目标编码器target encoder。

6.根据权利要求4所述的基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术,其特征在于:采用损失函数训练回归regressor子模块,损失函数为 其中 是鉴别器的损失, 是目标编码器的损失,γ是范围(0,1)的折扣因子。