1.一种手术交互行为识别方法,其特征在于,该方法包括:提取内窥镜图像的高维特征,并得到描述所述内窥镜图像的第一特征矩阵;
基于对应微创手术的手术交互行为三元组的总数量的查询数量Query_num和所述第一特征矩阵,通过三元组关系编码器实现对三元组关系编码;
基于三元组关系编码结果,通过器械‑动作‑目标解码器获取包含各个查询对应的所有器械、所有动作以及所有目标的预测概率的器械‑动作‑目标解码结果;
基于所述器械‑动作‑目标解码结果,通过权重注意力模块得到带有权重的最终查询矩阵;
基于所述带有权重的最终查询矩阵,通过有效三元组解码器得到最终的手术交互行为三元组的预测结果。
2.如权利要求1所述的一种手术交互行为识别方法,其特征在于,所述基于对应微创手术的手术交互行为三元组的总数量的查询数量Query_num和所述第一特征矩阵,通过三元组关系编码器实现对三元组关系编码,包括:通过查询嵌入初始化Query_num个与所述第一特征矩阵维度相同的第二特征矩阵;所述第二特征矩阵用于表征每类手术交互行为三元组的特征;
通过多头自注意力模块基于每个第二特征矩阵,得到第三特征矩阵,所述第三特征矩阵用于表征融合了各手术交互行为间关系的每类手术交互行为三元组的特征;
通过多头交叉注意模块计算所述第一特征矩阵与每个第三特征矩阵之间的相互关系,来识别所查询的Query_num个手术交互行为三元组与内窥镜图像的关系,得到既包含了所查询的各手术交互行为三元组间的关系同时也包含了内窥镜图像与各手术交互行为三元组的关系的第四特征矩阵;
将所述第四特征矩阵通过多层感知机最终输出第五特征矩阵。
3.如权利要求2所述的一种手术交互行为识别方法,其特征在于,所述基于三元组关系编码结果,通过器械‑动作‑目标解码器获取包含各个查询对应的所有器械、所有动作以及所有目标的预测概率的器械‑动作‑目标解码结果,包括:基于所述第五特征矩阵,通过器械‑动作‑目标解码器的器械检测模块、动作检测模块和目标检测模块得到第一器械矩阵、第一动作矩阵、第一目标矩阵;
且所述第一目标矩阵中的第i行第j列元素代表第i个查询中第j个目标的概率;
所述第一动作矩阵中的第i行第j列元素代表第i个查询中第j个动作的概率;
所述第一目标矩阵中的第i行第j列元素代表第i个查询中第j个目标的概率。
4.如权利要求3所述的一种手术交互行为识别方法,其特征在于,所述基于所述器械‑动作‑目标解码结果,通过权重注意力模块得到带有权重的最终查询矩阵,包括:基于第一器械矩阵、第一动作矩阵、第一目标矩阵,通过查询通道权重注意力,得到第二器械矩阵,第二动作矩阵和第二目标矩阵;
基于第二器械矩阵、第二动作矩阵、第二目标矩阵,通过查询元素权重注意力,得到第三器械矩阵,第三动作矩阵和第三目标矩阵。
5.如权利要求4所述的一种手术交互行为识别方法,其特征在于,所述基于所述带有权重的最终查询矩阵,通过有效三元组解码器得到最终的手术交互行为三元组的预测结果,包括:
将第三器械矩阵、第三动作矩阵和第三目标矩阵进行拼接,得到(Query_num,ni+nv+nt)维度的矩阵;
对该矩阵按列取平均,得到1×(ni+nv+nt)的一维向量,然后将该向量输入多层感知机,得到每个手术交互行为三元组的预测概率,并将大于阈值的作为最终手术交互行为三元组的预测结果。
6.如权利要求3所述的一种手术交互行为识别方法,其特征在于,所述器械‑动作‑目标解码结果还包括:
器械、目标在画面中的定位;
以及
每个查询中器械的最大值、动作的最大值和目标的最大值对应的器械、动作和目标;
以及
对第一器械矩阵、第一动作矩阵、第一目标矩阵中每列的最大值。
7.如权利要求1所述的一种手术交互行为识别方法,其特征在于,在训练模型时,损失函数包括:
用于集合预测的二分匹配损失、器械预测损失、动作预测损失、目标预测损失和三元组预测损失。
8.一种手术交互行为识别装置,其特征在于,该装置包括:特征提取器,用于提取内窥镜图像的高维特征,并得到描述所述内窥镜图像的第一特征矩阵;
三元组关系编码器,用于基于对应微创手术的手术交互行为三元组的总数量的查询数量Query_num和所述第一特征矩阵,实现对三元组关系编码;
器械‑动作‑目标解码器,用于基于三元组关系编码结果,获取包含各个查询对应的所有器械、所有动作以及所有目标的预测概率的器械‑动作‑目标解码结果;
权重注意力模块,用于基于所述器械‑动作‑目标解码结果,得到带有权重的最终查询矩阵;
有效三元组编码器,用于基于所述带有权重的最终查询矩阵,得到最终的手术交互行为三元组的预测结果。
9.一种计算机可读存储介质,其特征在于,其存储用于手术交互行为识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1‑7任一项所述的手术交互行为识别方法。
10.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1‑7任一项所述的手术交互行为识别方法。