买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于强化学习的蝠鲼式仿生鱼控制方法、装置及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于强化学习的蝠鲼式仿生鱼控制方法、装置及存储介质

￥25200

专利号： 2022110094230

申请人：江苏科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-02

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，包括以下步骤：(1)建立世界坐标系：以初始点作为坐标原点，东方向为X正方向，北方向为Y正方向；

(2)构建INS和GPS组合导航系统，输出t时刻仿生鱼的位置信息，推导t时刻误差角度err_yaw和当前位置与目标点距离err_dist；

(3)构建强化学习模型，使用DDPG作为强化学习模型框架，输入t时刻状态state＝[err_yaw,v,err_dist,v_yaw]，其中v为蝠鲼式仿生鱼的实时移动速度，v_yaw为转向速度，输出动作action＝[Kv,Kt]，其中Kv为速度系数，Kt为方向系数；

(4)通过仿真系统对强化学习模型进行训练；

(5)完成训练后，强化学习模型输出动作action＝[Kv,Kt]作为蝠鲼式仿生鱼的舵机的控制曲线的输入值，控制鱼体的速度和游动方向；

步骤(2)中，实时航向角与目标航向角之间的偏差err_yaw公式如下：err_yaw＝new_yaw‑tar_yaw

其中，new_yaw为当前偏航角，tww_yaw为目标航向角，px和py分别表示目标点的横坐标和纵坐标，nx和ny分别表示INS和GPS组合导航系统输出的当前位置的X坐标和Y坐标，ex和ey分别表示目标点与当前位置X坐标之差和Y坐标之差；

当前位置与目标点距离err_dist公式如下：

2.根据权利要求1所述基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，步骤(3)中强化学习模型的奖励函数r公式如下：r＝rs+rc

rs＝ryaw+rdist+rv+rv_yaw

rc＝ra+rd

其中，rs为日常奖励，rc为回合终止时的结算奖励，ryaw为方向奖励，rdist为距离奖励，rv为速度奖励，rv_yaw为转速奖励，ra为完成任务奖励，rd为装置损毁奖励。

3.根据权利要求2所述基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，方向奖励err_yaw表示实时航向角与目标航向角之间的偏差；距离奖励D表示初始时刻蝠鲼式仿生鱼与目标点的距离；速度奖励

v表示蝠鲼式仿生鱼的实时移动速度，单位为m/s；转速奖励v_yaw表示转向速度，单位为°/s。

4.根据权利要求2所述基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，完成任务奖励ra公式如下：其中，表示当前蝠鲼式仿生鱼的位置与目标位置点的水平面距离，单位为m；Δh表示蝠鲼式仿生鱼与目标点的深度偏差，单位为m；s为回合中的训练步数，smax最大训练步数；

装置损毁奖励rd公式如下：

其中，xi，yi，zi为当前蝠鲼式仿生鱼的三维坐标，xmax，ymax，zmax为蝠鲼式仿生鱼最大活动位置的三维坐标。

5.根据权利要求1所述基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，步骤(5)中，所述蝠鲼式仿生鱼的舵机的控制曲线为正弦波曲线，舵机的角度输出控制函数为：其中，αl为左侧扑荡舵机的转动角度，α0为扑荡舵机的最大俯仰角，ω为角频率，θl为左侧旋转舵机的转动角度，Ktl表示左方向系数，θ0为旋转舵机的最大旋转角，φ为同侧两舵机的相位差，αr为右侧扑荡舵机的转动角度，θr为右侧旋转舵机的转动角度，Ktr表示右方向系数；速度系数Kv的输出范围为[0,1]，方向系数Kt的输出范围为[‑1,1]。

6.根据权利要求1—5任一项所述基于强化学习的蝠鲼式仿生鱼控制方法，其特征在于，所述方法通过蝠鲼式仿生鱼控制装置实现，蝠鲼式仿生鱼控制装置包括INS和GPS组合导航模块，得到仿生鱼的速度v、位置、转速的组合导航结果；

强化学习模块，使用DDPG作为强化学习模型框架，基于深度确定性策略梯度网络训练仿生鱼的速度系数和方向系数；

控制模块，速度系数和方向系数作为仿生鱼的舵机的控制曲线的输入值，用于舵机控制仿生鱼的运动；

所述深度确定性策略梯度网络包括策略网络和评价网络；

所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块；

所述评价网络包括第二动作状态估计模块、第二动作状态现实模块、和损失函数模块；

所述第一动作状态估计模块连接第二动作状态估计模块、策略梯度模块，并且所述第一动作状态估计模块输出所述状态参数，并接收奖励值；

所述第一动作状态现实模块连接第二动作状态现实模块，并且所述第一动作状态现实模块接收所述奖励值；

所述策略梯度模块连接所述第一动作状态估计模块、第二动作状态估计模块；

所述第二动作状态估计模块连接所述第一动作状态估计模块、策略梯度模块和损失函数模块，并接收奖励值；

所述第二动作状态现实模块连接所述第一动作状态现实模块、损失函数模块，并接收奖励值；

所述损失函数模块连接第二动作状态现实模块和第二动作状态估计模块。