1.具有运动速度决策的康复训练机器人的自适应跟踪控制方法,其特征在于包括以下步骤:
1)比较康复训练机器人的当前运动速度和训练者的当前步行速度,并将比较结果的速度值大小作为速度决策的状态变量,以康复训练机器人加速、减速、匀速运动作为速度决策的动作,依据比较的速度值之差设计学习过程的奖惩函数,实现康复训练机器人运动速度决策;
2)利用决策的运动速度及康复训练机器人动力学模型建立跟踪误差系统,提出机器人适应训练者步行速度的跟踪控制方法,使误差系统实现稳定并确保人机运动速度协调。
2.根据权利要求1所述具有运动速度决策的康复训练机器人的自适应跟踪控制方法,其特征在于比较康复训练机器人的当前运动速度和训练者的当前步行速度,并将比较结果的速度值大小作为速度决策的三种状态变量,其中,vt表示机器人当前速度,Vt表示训练者当前速度,状态描述如下:
state1:vt
康复训练机器人运动速度决策步骤如下:
1)对康复训练机器人初始速度、初始状态的行为对(S,A)进行初始化,其中S为康复训练机器人当前状态,A为机器人当前采取的动作;设置机器人更新状态学习速率α,衰减系数γ,决策动作的选择概率ε,其中α∈[0,1],γ∈[0,1],ε∈[0,1];
2)对康复训练机器人和训练者的当前速度值比较大小,并判断机器人在state1,state2,state3中所处的状态,将其记为S,康复训练机器人以概率ε选取a1,a2,a3中的任意一个动作,并记为A,确定当前时刻的状态行为对(S,A);进一步,根据R获得奖惩值,使康复训练机器人进入下一个状态,记为S',再利用概率ε选择新的动作A',获得新的行为对(S',A'),同时根据当前时刻R的奖惩值对(S,A)的价值进行更新,更新过程为:Q(S,A)←Q(S,A)+α[R+γQ(S',A')‑Q(S,A)] (8)其中,Q(S,A)为当前状态行为对(S,A)获得的价值;Q(S',A')为下一时刻状态行为对(S',A')的价值;这样根据式(8)的价值,可以完成一次动作决策;
3)将(S',A')作为当前新的状态和动作,重复步骤2),机器人不断进行动作决策,直到完成决策次数,使ΔV=0,实现人机运动速度协调。
3.根据权利要求1所述具有运动速度决策的康复训练机器人的自适应跟踪控制方法,其特征在于系统的动力学模型描述如下:其中
X(t)为康复训练机器人的实际运动轨迹,u(t)表示广义输入力,M表示机器人的质量,m表示康复者的质量,I0表示转动惯量,M0,K(θ), B(θ)为系数矩阵;θ表示水平轴和机器人中心与第一个轮子中心连线间的夹角,即θ=θ1,由康复训练机器人结构可知,θ3=θ+π, li表示系统重心到每个轮子中心的距离,r0表示中心到重心的距离,φi表示x′轴和每个轮子对应的li之间的夹角(i=1,2,3,4);
设康复训练机器人实际运动轨迹X(t),医生指定训练轨迹Xd(t),设系统轨迹跟踪误差e1(t)为
e1(t)=X(t)‑Xd(t) (10)速度跟踪误差e2(t)为:
其中c为适应运动速度决策的待设计参数, 为机器人决策的运动速度;
根据式(10)(11),得到跟踪误差系统如下:其中M1=M0K(θ),
*
设 为参数c的估计值,c为c的最优估计值,估计误差 则有设计控制器u(t)如下:
且参数c的自适应律:
其中K>0, 为 的伪逆矩阵;
设计Lyapunov函数V(x,t)如下:对其求导:
将控制器u(t)和自适应律 带入式(17)可得:由式(18)可知跟踪误差系统(12)渐近稳定,控制器(14)可以适应机器人决策的运动速度,确保人机速度协调且稳定跟踪医生指定的训练轨迹。