利索能及
我要发布
收藏
专利号: 2020113530124
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的无人艇航迹控制方法,其特征在于:包括如下步骤:步骤一:初始化一个决策网络Q和一个目标网络Q′的网络参数;

步骤二:获得无人艇当前状态St,包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据,以及之前时刻舵角位置和螺旋桨输出动力的信息;

步骤三:对无人艇的状态信息进行预处理,对于船的大惯性我们将长度和角度信息的微分量引入到无人艇的状态信息;对于船的迟滞性我们将状态信息的积分量引入到状态信息;

步骤四:将状态St′代入决策网络Q并根据策略π(a|s)得到动作a和奖励r;

步骤五:执行动作并进入下一状态St+1并预处理得到状态S′t+1;

步骤六:将(St′,S′t+1,a,r)作为一条数据连同采样优先级存储到经验池中;

步骤七:以采样优先级作为采样概率的依据采样m条数据,投入目标网络得到损失函数ω;

步骤八:用ω更新决策网络Q,i++;

步骤九:若i>=n,则用决策网络Q的参数更新一次目标网络Q′,且令i=0;

步骤十:观察是否达到训练结束条件,达到了就结束训练,否则跳转到步骤二。

2.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,将之前时刻舵角,螺旋桨输出动力这些动作信息也作为状态信息,作为当前状态信息的一部分。

3.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤三中,将状态输入到状态动作值函数网络中时,会对状态S的数据进行预处理,使不满足马尔科夫性的大迟滞系统也可一定程度上满足马尔科夫性。

4.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:详细设置了无人艇获取的奖励,防止由于奖励稀疏问题导致的强化学习训练效率低下。

5.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,动态调整训练神经网络的数据被采样的概率,促进最新的数据能被尽早被利用,保证所有数据被均匀地使用。