买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于视频学习和文本学习的三元组获取方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于视频学习和文本学习的三元组获取方法及装置

￥14000

专利号： 2020108308035

申请人：广东工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于视频学习和文本学习的三元组获取方法，应用于机器人，其特征在于，所述方法包括：获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；

将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；

将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

2.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述长视频分割为多个视频段的步骤，包括：确定所述长视频中每一帧的预测动作，并将相同预测动作对应的帧进行合并，得到多个视频段。

3.根据权利要求2所述的基于视频学习和文本学习的三元组获取方法，其特征在于，根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组的步骤，包括：根据所述视频段中的预测动作确定各个视频段对应的动作类型以及动作识别概率；

对所述视频段进行目标检测并分类，得到与所述视频段对应的主体物体、受体物体以及对应的物体识别概率；

根据所述动作识别概率和所述物体识别概率选取相应的动作类型、主体物体和受体物体，并组成操作指令三元组。

4.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中的步骤之前，还包括：获取多个长视频，并组成视频数据集，根据所述视频数据集构建文本-三元组正负样本数据集；

利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练，得到训练后的自然语言模型。

5.根据权利要求4所述的基于视频学习和文本学习的三元组获取方法，其特征在于，所述自然语言模型为BERT+GRU模型；

利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练的步骤，包括：通过所述BERT+GRU模型的BERT模型提取所述文本-三元组正负样本数据集的特征数据，并将所述特征数据输入到所述BERT+GRU模型的GRU模型中，得到三个长度相同的矩阵；

利用sigmoid函数确定各个矩阵中各个类别对应的识别概率，并将各个矩阵中识别概率最高的类别组成三元组。

6.根据权利要求5所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组的步骤，包括：将所述操作指令三元组输入到固定的句式中得到对应的句子，并将所述句子输入到所述BERT+GRU模型中，通过所述BERT模型提取所述句子的特征数据，并将所述特征数据输入到所述GRU模型中，得到主体物体矩阵、受体物体矩阵和动作类型矩阵；

利用sigmoid函数确定所述主体物体矩阵、受体物体矩阵和动作类型矩阵中各个类别对应的识别概率，并将所述主体物体矩阵、受体物体矩阵和动作类型矩阵中识别概率最高的类别组成预测三元组。

7.根据权利要求6所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组的步骤，包括：将所述预测三元组中的各个类别与所述操作指令三元组中的各个类别之间进行比对；

若所述操作指令三元组中的各个类别与所述预测三元组不同，则将所述预测三元组作为目标三元组。

8.一种基于视频学习和文本学习的三元组获取装置，应用于机器人，其特征在于，包括：第一处理模块，用于获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；

第二处理模块，用于将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；

目标确定模块，用于将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

9.一种共融机器人视觉编程及在线协作系统，其特征在于：所述共融机器人视觉编程及在线协作系统中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述基于视频学习和文本学习的三元组获取方法的步骤。

10.一种机器人，其特征在于：所述机器人应用如权利要求1至7中任一项所述基于视频学习和文本学习的三元组获取方法的步骤，获取目标三元组，并通过所述目标三元组执行相应的操作指令。

推荐专利

基于文本生成图像技术的文本视频检索优化方法

发明专利

￥31200

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们