利索能及
我要发布
收藏
专利号: 2022106737800
申请人: 安庆师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种机器人表情在线驱动方法,其特征在于,所述方法基于RobotFELNet实现,所述RobotFELNet包括基于Transformer编码结构构建的面部形变提取子网、面部‑电机交叉协同子网以及驱动序列生成子网,所述方法包括:步骤一:将表演者的面部驱动序列输入基于区域时空注意力的面部形变提取子网生成面部各个区域的时空语义表示向量;步骤一包括:步骤101:将表演者的面部形变序列输入编码器中得到面部形变序列的编码表示;

步骤102:将面部形变序列的编码表示按照区域分组得到各个区域的面部形变序列,利用全连接层对各个区域的面部形变序列的形变分量进行时序嵌入得到形变嵌入特征,以形变嵌入特征为Token,基于L层Transformer编码器进行编码和特征级联得到各个区域形变特征;

步骤103:以各个区域形变特征为Token,构建域间协作注意力模块,域间协作注意力模块输出各个区域的时空语义表示向量;

步骤二:机器人的面部表情由多个驱动电机驱动,将机器人的驱动电机的驱动序列以及表演者的面部各个区域的时空语义表示向量输入面部‑电机交叉协同子网,实现面部形变时空语义到电机驱动序列的映射;

步骤三:面部‑电机交叉协同子网的输出结果输入基于B样条平滑约束的驱动序列生成子网,并基于多层LSTM和B样条平滑约束实现未来电机驱动序列的滚动生成和规整;

步骤四:构建最小化目标函数,采用梯度下降法求解RobotFELNet的最优参数;

步骤五:在最优参数下实现基于RobotFELNet的机器人在线表情学习。

2.根据权利要求1所述的一种机器人表情在线驱动方法,其特征在于,所述步骤101包括:利用Transformer架构的编码模块进行面部形变序列、电机驱动序列的深度特征语义提取,编码模中编码器表示为Y=Endcoder(X+Positional_Encoding,L),其中,X为输入序列;Positional_Encoding为位置编码;Y表示编码器的输出序列,L为编码器的层数;

k

将表演者的面部形变序列输入编码器中得到F=Encoder(X (T)+Positional_k N×k T‑k+1Encoding,L),其中,X (T)∈R 为T时刻前k帧面部形变序列组成的嵌入矩阵,F=[F ,T‑k+2 T T N×kF ,…,F]∈R 为T时刻前k帧面部形变序列的编码表示。

3.根据权利要求2所述的一种机器人表情在线驱动方法,其特征在于,所述步骤102包括:将T时刻前k帧面部形变序列的编码表示按照区域分成P组,第p个区域的面部形变序列为 Np表示第p个区域的特征点数目,且表示第P个区域第i个形变分量在T‑k+1

~T间的时序; 表示第P个区域第i个形变分量在u时刻的幅度值;

通过公式 i∈[1,Np]利用全连接层实现形变分量的时序嵌入,FNN(·)p

为全连接层; 为Fi的形变嵌入特征;

p

以形变嵌入特征 为Token,基于L层Transformer编码器进行编码和特征级联得到Z=pConcate(Encoder(R +Positional_Encoding,L)),其中,为嵌入矩阵; 为Np个输出向量级联得到的第P个区域形变特征, 为 的编码表示;Concate(·)表示向量级联函数。

4.根据权利要求3所述的一种机器人表情在线驱动方法,其特征在于,所述步骤103包括:以P个区域形变特征 为Token,通过公式A=Encoder(Z+Positional_Encoding,L)构建域间协作注意力模块,其中, 为域间协作注意力模块的嵌入矩阵; 为域间协作注意力模块的输出矩阵,p

是Z的编码表示,含义为p区域的时空语义表示向量。

5.根据权利要求4所述的一种机器人表情在线驱动方法,其特征在于,所述步骤二包括:步骤201:以驱动电机的驱动序列为查询向量,区域形变时空语义为键向量和值向量构建交叉注意力模块得到驱动电机的驱动序列与p区域的时空语义的交叉语义表示;

步骤202:将交叉注意力模块的输出按照驱动电机的影响重新排列,以驱动电机所影响的区域形变语义作为Token,进行嵌入、Transformer编码、级联和全连接层映射得到驱动电机的交叉语义,以驱动电机的交叉语义为Token,基于自注意力机制实现电机协同表示。

6.根据权利要求5所述的一种机器人表情在线驱动方法,其特征在于,所述步骤201包括:驱动电机的驱动序列与p区域的时空语义的交叉语义表示为p p T M×h

其中,Q=Y(T‑1)WQ,K=AWK,V=AWV,Y(T‑1)=[Y1,…,Yj,…,YM]∈R 为M个驱动电机历史运动轨迹组成的查询向量, 为第j个驱动电机的历史运动轨迹; 为第p区域的面部时空语义表示;

h×q

为第j个驱动电机的历史控制序列与第p区域面部时空语义的交叉语义表示;WQ∈R 、WK∈s×q s×qR 、WV∈R 为均为权值矩阵;s、q分别表示交叉注意力模块的嵌入维度。

7.根据权利要求6所述的一种机器人表情在线驱动方法,其特征在于,所述步骤202包括:将交叉注意力模块的输出 按照驱动电机的影响重新排列p

为 j∈[1,M],Bj 表示第j个驱动电机对第p个区域形变时序的影响程度;

以第j个驱动电机所影响的P个区域形变语义 作为Token,通过公式Cj=FNN(Concate(Ej))以及Ej=Endcoder(Bj+Positional_Encoding,L)进行嵌入、Transformer编码、级联和全连接层映射,其中, 为输入 的编码H

表示;Cj∈R为第j个驱动电机的交叉语义;

以 为Token,基于自注意力机制实现电机协同表示,即D=Endcoder(C+T M×H

Positional_Encoding,L),其中,C=[C1,…,Cj,…CM] ∈R 为交叉注意力模块的嵌入矩T M×H阵;D=[D1,…,Dj,…DM]∈R ,Dj为Cj的编码表示。

8.根据权利要求7所述的一种机器人表情在线驱动方法,其特征在于,所述步骤三包括:步骤301:用第j个驱动电机的交叉语义Dj通过公式 预测其未来d帧驱动序列,其中,j∈[1,M], 为第j个电机在第u时刻的驱动值,u∈[T,T+d‑1],LSTM(·)表示l层LSTM编码器,经M个LSTM编码器的并行计算和重组,得到机器人第u时刻的驱动向量步骤302:以第j个驱动电机连续d+1个时刻的驱动值 构造d‑2条三次均匀B样条曲线段,该曲线段的参数方程为 其中, 为第j个驱动电机第i段曲线的参数方程;v∈[0,1]为节点矢量,i∈[0,d‑3],Ai为系数矩阵;

步骤303:基于构造的曲线的参数方程,分别采样M个电机的平滑值并形成平滑约束向量 其中, q=(d‑2)/d*(u+1);

步骤304:u时刻规整后的电机驱动向量表示为 其中,γ∈[0,1]为平滑因子。

9.根据权利要求8所述的一种机器人表情在线驱动方法,其特征在于,所述步骤五包括:在最优参数下,以表演者T‑k+1~T帧的面部形变序列 以h T‑h T‑h+1 T‑1

及机器人T‑h~T‑1帧电机历史驱动序列Y (T‑1)=(Y ,Y ,…,Y )为输入,基于RobotFELNet输出机器人T~T+d‑1时刻最优电机驱动序列为其中,θ为

RobotFELNet最优参数集合,

T时刻,将 传送至硬件控制器,并驱动相关电机呈现T时刻的机器人表情;T+1时刻,以表演者T‑k+2~T+1帧的面部形变序列以及机器人T‑h+1~T帧电机历史驱动序列 为输入,预测并驱动电机呈现T+1时刻机器人表情。