买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种视频描述方法及装置、计算机设备和存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种视频描述方法及装置、计算机设备和存储介质

￥11400

专利号： 201810814079X

申请人：北京市商汤科技开发有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种视频描述方法，其特征在于，所述方法包括：

将待描述的视频分割为N个片段；

获取预设的网络模型输出的第P个文本特征，所述N为大于等于2的整数，P为大于等于1且小于等于N的整数；其中，所述网络模型包括第一网络模型和第二网络模型，所述第一网络模型用于从N个所述片段中选择承载视频重要信息的关键片段；所述第二网络模型用于对所述关键片段生成相应的文本特征；

将所述N个片段和所述第P个文本特征输入所述网络模型，得到第P+1个文本特征；

输出所述第P+1个文本特征；其中，所述文本特征为所述N个片段中的关键片段对应的文本，且所述文本特征用于描述所述待描述的视频。

2.根据权利要求1所述的方法，其特征在于，所述网络模型包括第一网络模型和第二网络模型，所述获取预设的网络模型输出的第P个文本特征，包括：获取所述第二网络模型输出的第P个文本特征；

对应地，所述将所述N个片段和所述第P个文本特征输入所述网络模型，得到第P+1个文本特征，包括：将所述N个片段和所述第P个文本特征输入第一网络模型，得到所述N个片段中满足预设条件的第P+1个关键片段；

将所述第P+1个关键片段输入所述第二网络模型，得到第P+1个文本特征。

3.根据权利要求2所述的方法，其特征在于，P＝1时，获取第一个文本特征，包括：将所述N个片段输入第一网络模型，得到所述N个片段中满足预设条件的第一个关键片段；

将所述第一个关键片段输入所述第二网络模型，得到第一个文本特征。

4.根据权利要求2所述的方法，其特征在于，所述第一网络模型包括长短期记忆网络LSTM，且所述第一网络模型的输出为第二网络模型的输入；所述第二网络模型包括LSTM，且所述第二网络模型的输出作为所述第一网络模型的输入。

5.根据权利要求1所述的方法，其特征在于，所述将待描述的视频分割为N个片段，包括：获取待描述的视频；

将所述待描述的视频沿播放时间，按照预设的时间阈值分割为N个片段；其中，所述N个片段包括相互重叠或不重叠的片段。

6.根据权利要求3所述的方法，其特征在于，P＝1时，所述将所述N个片段输入第一网络模型，得到所述N个片段中满足预设条件的第一个关键片段，包括：将所述N个片段中的第q个片段的视觉特征和所述第q个片段所占时长输入所述第一网络模型，得到所述第q个片段对应的内在特征；其中，q为大于等于1且小于等于N的整数；所述第一网络模型中包括初始化矩阵；

根据所述第q个片段对应的内在特征，确定满足预设条件的第一个关键片段。

7.根据权利要求2所述的方法，其特征在于，所述将所述N个片段和第二网络模型输出的第P个文本特征输入第一网络模型，得到所述N个片段中满足预设条件的第P+1个关键片段，包括：将所述N个片段中的第n个片段的视觉特征、所述第n个片段所占时长和所述第P个文本特征输入所述第一网络模型，根据所述第一网络模型中的第n-1个片段对应的内在特征，得到所述第n个片段对应的内在特征；其中，n为大于等于2，小于N的整数；所述第n个片段为所述N个片段中的任一片段；所述视觉特征为所述关键片段呈现的画面的特征；

根据所述第n个片段对应的内在特征，确定满足预设条件的第P+1个关键片段。

8.根据权利要求2所述的方法，其特征在于，将所述第P+1个关键片段输入所述第二网络模型，得到第P+1个文本特征，包括：将所述第P+1个关键片段中的第j个子段的视觉特征输入第二网络模型，根据所述第二网络模型中的第P个关键片段对应的文本特征和所述第P个关键片段的内在特征，得到所述第j个子段的内在特征；其中，所述第j个子段是所述第P+1个关键片段中的一部分，j为大于等于1的整数；

根据预设的损失函数和所述第j个子段的内在特征，确定所述第P+1个关键片段对应的第P+1个文本特征。

9.根据权利要求8所述的方法，其特征在于，在所述根据预设的损失函数和所述第j个子段的内在特征，确定所述第P+1个关键片段对应的第P+1个文本特征之后，所述方法还包括：将所述第P+1个文本特征输入到所述第一网络模型。

10.根据权利要求1所述的方法，其特征在于，所述输出所述第P+1个文本特征，包括：当所述P+1小于N时，从所述第二网络模型输出第P+1个文本特征，并将所述第P+1个文本特征输入到所述第一网络模型；

当所述P+1等于N时，输出所述第P+1个文本特征。

11.根据权利要求2所述的方法，其特征在于，所述第一网络模型的训练过程，包括：获取样本视频和预设的已标注事件；其中，所述预设的已标注事件为所述样本视频对应的已知文本的视频；

将所述样本视频分割为N个片段；

将所述N个片段中与所述已标注事件的匹配度大于等于预设阈值的片段，确定为所述样本视频的关键片段；

根据所述关键片段和所述预设的已标注事件，得到训练好的所述第一网络模型。

12.根据权利要求11所述的方法，其特征在于，所述将所述N个片段中与所述已标注事件的匹配度大于等于预设阈值的片段，确定为所述样本视频的关键片段，还包括：将所述样本视频中的关键片段按照所述样本视频的播放时间顺序输入所述第二网络模型，并得到所述第二网络模型返回的所述关键片段对应的文本特征；

根据所述关键片段对应的文本特征和所述样本视频中N个片段对应的已标注事件，确定所述样本视频中的关键片段。

13.根据权利要求11所述的方法，其特征在于，所述第二网络模型的训练过程，包括：确定所述第一网络模型输入的所述样本视频的第m个关键片段对应的视觉特征；

根据所述第m个关键片段对应的视觉特征、所述第m-1个关键片段对应的内在特征和所述第m-1个关键片段对应的已标注事件的文本特征，生成所述第m个关键片段对应的第m个文本特征；其中，m为大于等于2，且小于等于N的整数；

根据所述样本视频中的关键片段对应的文本特征和所述关键片段对应的已标注事件，得到训练好的所述第二网络模型的训练。

14.根据权利要求13所述的方法，其特征在于，所述根据所述样本视频中的所有关键片段的文本特征和所述关键片段对应的已标注事件，得到训练好的所述第二网络模型，包括：采用自批判序列和预设的已标注事件对应的样本语句，对所述关键片段对应的文本特征中的语句进行调整，得到已调整语句的文本特征；

采用自批判序列和预设的已标注事件对应的样本段落，对所述已调整语句的文本特征对应的段落进行调整，得到调整的文本特征；

根据所述调整的文本特征，对所述第二网络模型进行调整，得到所述训练好的所述第二网络模型。

15.根据权利要求4所述的方法，其特征在于，在训练所述第二网络模型和所述第一网络模型时，所述第一网络模型的输出作为所述第二网路模型的输入，且所述第二网络模型的输出作为所述第一网络模型的输入，包括：将样本视频的第m个关键片段对应的第m个文本特征输入所述第一网络模型，得到所述样本视频中的第m+1个关键片段；

将所述m+1个关键片段输入所述第二网络模型中，生成所述第m+1个关键片段对应的第m+1个文本特征；

依此循环，从所述第一网络模型中输出所述样本视频的关键片段，从所述第二网络模型中输出所述关键片段对应的文本特征。

16.一种视频描述装置，其特征在于，所述装置包括：第一分割模块、第一获取模块、第一输入模块和第一输出模块，其中：所述第一分割模块，用于将待描述的视频分割为N个片段；

所述第一获取模块，用于获取预设的网络模型输出的第P个文本特征，所述N为大于等于2的整数，P为大于等于1且小于等于N的整数；其中，所述网络模型包括第一网络模型和第二网络模型，所述第一网络模型用于从N个所述片段中选择承载视频重要信息的关键片段；

所述第二网络模型用于对所述关键片段生成相应的文本特征；

所述第一输入模块，用于将所述N个片段和所述第P个文本特征输入所述网络模型，得到第P+1个文本特征；

所述第一输出模块，用于输出所述第P+1个文本特征；其中，所述文本特征为所述N个片段中的关键片段对应的文本，且所述文本特征用于描述所述待描述的视频。

17.根据权利要求16所述的装置，其特征在于，所述网络模型包括第一网络模型和第二网络模型，所述第一获取模块，包括：第一获取子模块，用于获取所述第二网络模型输出的第P个文本特征；

对应地，所述第一输入模块，包括：

第一输入子模块，用于将所述N个片段和所述第P个文本特征输入第一网络模型，得到所述N个片段中满足预设条件的第P+1个关键片段；

第二输入子模块，用于将所述第P+1个关键片段输入所述第二网络模型，得到第P+1个文本特征。

18.根据权利要求17所述的装置，其特征在于，P＝1时，所述第一获取模块，用于获取第一个文本特征；所述第一获取模块，包括：第三输入子模块，用于将所述N个片段输入第一网络模型，得到所述N个片段中满足预设条件的第一个关键片段；

第四输入子模块，用于将所述第一个关键片段输入所述第二网络模型，得到第一个文本特征。

19.根据权利要求17所述的装置，其特征在于，所述第一网络模型包括长短期记忆网络LSTM，且所述第一网络模型的输出为第二网络模型的输入；所述第二网络模型包括LSTM，且所述第二网络模型的输出作为所述第一网络模型的输入。

20.根据权利要求16所述的装置，其特征在于，所述第一分割模块，包括：第二获取子模块，用于获取待描述的视频；

第一分割子模块，用于将所述待描述的视频沿播放时间，按照预设的时间阈值分割为N个片段；其中，所述N个片段包括相互重叠或不重叠的片段。

21.根据权利要求18所述的装置，其特征在于，P＝1时，所述第三输入子模块，包括：第一输入单元，用于将所述N个片段中的第q个片段的视觉特征和所述第q个片段所占时长输入所述第一网络模型，得到所述第q个片段对应的内在特征；其中，q为大于等于1且小于等于N的整数；所述第一网络模型中包括初始化矩阵；

第一确定单元，用于根据所述第q个片段对应的内在特征，确定满足预设条件的第一个关键片段。

22.根据权利要求17所述的装置，其特征在于，所述第一输入子模块，包括：第二输入单元，用于将所述N个片段中的第n个片段的视觉特征、所述第n个片段所占时长和所述第P个文本特征输入所述第一网络模型，根据所述第一网络模型中的第n-1个片段对应的内在特征，得到所述第n个片段对应的内在特征；其中，n为大于等于2，小于N的整数；

所述第n个片段为所述N个片段中的任一片段；所述视觉特征为所述关键片段呈现的画面的特征；

第二确定单元，用于根据所述第n个片段对应的内在特征，确定满足预设条件的第P+1个关键片段。

23.根据权利要求17所述的装置，其特征在于，所述第二输入子模块，包括：第三输入单元，用于将所述第P+1个关键片段中的第j个子段的视觉特征输入第二网络模型，根据所述第二网络模型中的第P个关键片段对应的文本特征和所述第P个关键片段的内在特征，得到所述第j个子段的内在特征；其中，所述第j个子段是所述第P+1个关键片段中的一部分，j为大于等于2的整数；

第三确定单元，用于根据预设的损失函数和所述第j个子段的内在特征，确定所述第P+

1个关键片段对应的第P+1个文本特征。

24.根据权利要求23所述的装置，其特征在于，所述装置还包括：第二输入模块，用于将所述第P+1个文本特征输入到所述第一网络模型。

25.根据权利要求16所述的装置，其特征在于，所述第一输出模块，包括：第五输入子模块，用于当所述P+1小于N时，从所述第二网络模型输出第P+1个文本特征，并将所述第P+1个文本特征输入到所述第一网络模型；

第一输出子模块，用于当所述P+1等于N时，输出所述第P+1个文本特征。

26.根据权利要求17所述的装置，其特征在于，所述装置还包括：第一训练模块，用于训练第一网络模型；

所述第一训练模块，包括：

第三获取子模块，用于获取样本视频和预设的已标注事件；其中，所述预设的已标注事件为所述样本视频对应的已知文本的视频；

第二分割子模块，用于将所述样本视频分割为N个片段；

第三确定子模块，用于将所述N个片段中与所述已标注事件的匹配度大于等于预设阈值的片段，确定为所述样本视频的关键片段；

第一训练子模块，用于根据所述关键片段和所述预设的已标注事件，得到训练好的所述第一网络模型。

27.根据权利要求26所述的装置，其特征在于，所述装置还包括：第三输入模块，用于将所述样本视频中的关键片段按照所述样本视频的播放时间顺序输入所述第二网络模型，并得到所述第二网络模型返回的所述关键片段对应的文本特征；