利索能及
我要发布
收藏
专利号: 2022105932929
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种无人机路径规划方法,其特征在于,包括如下步骤:

步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;

步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;

步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;

步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;

步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;

将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;

步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;

步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;

步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。

2.如权利要求1所述的无人机路径规划方法,其特征在于,所述动作角度阀值的选取范围为45°至90°。

3.如权利要求1所述的无人机路径规划方法,其特征在于,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。

4.如权利要求1或3所述的无人机路径规划方法,其特征在于,所述通过训练集对深度Q网络进行更新的具体方法为:步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;

步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;

步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。

5.如权利要求1所述的无人机路径规划方法,其特征在于,所述奖励函数的公式为:其中,ds‑1与ds是智能体前一个位置和当前位置与终点之间的距离,obi是智能体当前位置与第i个障碍物之间的距离,battery为当前智能体电池的电量,α、β、δ为用于平衡重要性的参数,fi∈{0,1}为当前执行任务的标志,当第i个子任务被激活时fi=1,当第i个子任务待激活或者执行完毕时fi=0。