利索能及
我要发布
收藏
专利号: 2024102780228
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多目标点信息融合的移动机器人跟踪控制方法,其特征在于,包括以下步骤:S1、基于移动机器人的运动学模型对强化学习的动作空间进行建模,对移动机器人转向空间的精确建模;

S2、充分利用预定轨迹信息,设计了融合多目标点信息的奖励函数;

所述步骤S2中,利用预定轨迹信息,设计了融合多目标点信息的奖励函数,建立新的目标信息函数(1)对学习过程进行指导,函数(1)如下式所示:引入三个无量纲标量系数k1、k2及k3,遵从归一化约束:k1+k2+k3=1,这些系数用于调整各子收益的影响,d1、d2和d3分别表示当前位置与目标位置及其子目标的距离,Δψ1、Δψ2与Δψ3表示当前的航向角与目标及其子目标的航向角的误差,rd和rψ表示车辆在行驶过程中的位置误差和航向角误差的奖励;

融合改进的目标信息作为统一标量奖励信号,并利用外部坏境信息和轨迹信息设计新的多目标奖励函数(2)如下所示:r=wdrd+wψrψ    (2)

上式中wd和wψ表示车辆行驶过程中的位置误差和航向角误差的权重系数,r表示车辆行驶过程中的奖励之和;

S3、在Q‑learning框架下,利用在线强化学习方法对Bellman最优方程进行求解;

S4、设计了移动机器人最优轨迹跟踪控制策略,在仿真环境进行算法仿真和数据对比,验证所提出算法的优越性及其可行性。

2.根据权利要求1所述的一种基于多目标点信息融合的移动机器人跟踪控制方法,其特征在于:所述步骤S1中,对强化学习的空间动作建模,使得智能体在跟踪目标轨迹的过程中获得最大的累积奖励,包括以下过程:S11、对强化学习参数进行初始化,α为学习率,用于确定更新Q值时TD时序差分误差的重要性;γ为折扣系数,用于权衡当前和未来的奖励;∈为贪婪策略中随机操作的概率,用于控制贪婪策略中探索与利用的平衡;num_iterations为迭代次数,用于控制Q值更新的迭代次数;Q表为记录数据表格,用于记录和更新状态‑动作价值state‑action value的表格;

S12、建立状态空间方程,将其状态空间描述为一个四元组 用S表示环境观测的值集合,代表强化学习中的此时状态:T,y为大地坐标系下的车辆位置坐标,用于记录车辆位置信息;为车辆航向角,信号来自陀螺仪;v为车辆的纵向速度,信号来自车速传感器;

S13、建立动作空间方程,阿克曼车型的自动驾驶汽车视为自行车模型,其动作空间描述为A,表示为动作的集合,代表强化学习中的选择的动作:u为前轮转角,信号来自车辆前轮转角传感器;由于阿克曼车型的限制,其动作空间约束为umin≤u(t)≤umax,在强化学习中动作空间建模的要求,A为有限的动作集合,是若干前轮转角组成,且由于实际情况的影响,前轮忽略一些变化量小的角度。

3.根据权利要求1所述的一种基于多目标点信息融合的移动机器人跟踪控制方法,其特征在于:所述步骤S3中,包括以下步骤:

S31、针对强化学习的参数初始化,包括学习率α、折扣系数γ、∈贪婪策略的参数∈、最大迭代次数M以及最大迭代层数L,在初始化阶段,初始化所有状态动作对应的Q(s,a)值,即Q表,设置迭代次数m=0、m<M、l<L时刻为初始状态,为算法的起始点;

S32、根据∈‑贪婪法选择行动,并根据当前状态和选择的行动更新环境状态,并计算奖励函数值;

S33、通过对奖励函数值的分析,利用Q学习算法的on‑policy版本结合时间差分法进行学习,通过对Bellman最优方程的求解,寻找最优策略。

4.根据权利要求1所述的一种基于多目标点信息融合的移动机器人跟踪控制方法,其特征在于:所述步骤S4中,设计了移动机器人最优轨迹跟踪控制策略,在仿真环境进行算法仿真和数据对比,验证所提出算法的优越性及其可行性,该算法主要包括在线训练、轨迹跟踪和算法比较部分,三个部分内容如下:(1)在线训练

在线训练部分主要针对Q学习的on‑policy版本算法;初始化Q表参数,设置训练终止条件,与环境交互,根据∈‑贪心策略选择动作,执行动作后观察状态和奖励,根据公式迭代更新Q表,反复该交互过程,直至满足终止条件;

(2)轨迹跟踪

将学习到的Q表应用于环境中,选择Q值最大的贪心动作,记录执行轨迹和累积奖励;

(3)算法比较

采用基于模型预测控制(MPC)Stanley算法、线性二次调节器LQR算法以及改进强化学习算法进行比较,在平缓的U型曲线场景中评估轨迹跟踪性能,通过在多S形曲线场景中比较,验证这四种算法与改进的强化学习算法在车辆转弯场合下的轨迹跟踪表现。