利索能及
我要发布
收藏
专利号: 2018106078239
申请人: 深圳市商汤科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据处理方法,其特征在于,包括:

按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;

基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签,所述数据集合用于训练网络模型。

2.根据权利要求1所述的方法,其特征在于,所述按照层级扩展的方式,获取基于种子标签的多层级标签结构包括:将所述种子标签作为与其对应的所述多层级标签结构的第一层标签;

将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;

获取所述组合标签的扩展标签,所述扩展标签为所述多层级标签结构的第i+1层与所述组合标签对应的标签。

3.根据权利要求2所述的方法,其特征在于,其中,所述获取所述组合标签的扩展标签包括:通过查询第一数据库,获取所述组合标签的扩展标签,其中所述第一数据库中包括各标签及其扩展标签;或者通过向网络搜索引擎请求获取组合标签的扩展标签。

4.根据权利要求1所述的方法,其特征在于,所述获取所述多层级标签结构中各标签对应的数据包括:获得与所述种子标签对应的第一数据;以及

将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;

获得与所述组合标签对应的第二数据。

5.根据权利要求4所述的方法,其特征在于,其中,所述获得与所述种子标签对应的第一数据包括:通过查询第二数据库,获得与所述种子标签对应的第一数据,所述第二数据库中包括多个第一数据,每个第一数据对应有至少一种标签;或者利用网络搜索引擎获取所述种子标签对应的第一数据。

6.根据权利要求4所述的方法,其特征在于,其中,所述获得与所述组合标签对应的第二数据包括:通过查询第二数据库,获得与所述组合标签对应的第二数据,所述第二数据库中包括标签以及与该标签对应的数据;或者利用网络搜索引擎获取所述组合标签对应的第二数据。

7.根据权利要求1所述的方法,其特征在于,所述基于所述多层级标签结构,获取至少一个数据集合包括:利用预设筛选方式,从获得的数据中获取第三数据;

获取第三数据中各数据对应的第三标签;

基于所述第三标签和第三数据形成所述数据集合,

其中,所述预设筛选方式包括随机筛选方式或者基于数据对应的标签的类别执行筛选的方式。

8.根据权利要求1所述的方法,其特征在于,所述基于所述多层级标签结构,获取至少一个数据集合包括:对所述多层级标签结构中的各标签进行归类处理,形成关于至少一个类别的标签树结构;

基于所述标签树结构获得所述数据集合。

9.根据权利要求8所述的方法,其特征在于,所述对所述多层级标签结构中的各标签进行归类处理,形成关于至少一个类别的标签树结构包括:对所述种子标签进行第一归类处理,建立关于至少一个类别的第一标签树结构,所述类别包括物体、地点、事件和时间中的至少一种;

对所述种子标签以外的其余标签进行第二归类处理,形成基于所述第一标签树结构的第二标签树结构。

10.根据权利要求9所述的方法,其特征在于,所述对所述种子标签进行第一归类处理包括:构建关于各所述种子标签之间的从属关系的第一子标签树结构,其中所述从属关系表示各所述种子标签之间的父类和子类的对应关系;

获取各所述第一子标签树结构的根节点的父类信息,如果存在至少两个第一子标签树结构的根节点具有相同的父类,则将该至少两个第一子标签树结构的根节点作为该父类节点的子类进行融合形成新的第一子标签树结构,直至各第一子标签树结构的根节点不存在相同的父类,形成关于至少一个类别的第一标签树结构。

11.根据权利要求9所述的方法,其特征在于,所述对所述种子标签以外的其余标签进行第二归类处理,形成基于所述第一标签树结构的第二标签树结构包括:获取多层级标签结构中第i+1层各第四标签的词性;

如果所述第四标签的词性为形容词,则将第i+1层的该第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果所述第四标签的词性为名词,则确定该第四标签的对应的前i+1层标签的组合标签是否为前i层对应的标签的组合标签的子类,如是,将该前i+1层标签的组合标签添加至所述第一标签树结构并作为所述前i层对应的标签的组合标签的子类,否则,将所述第四标签的词性转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果所述第四标签的词性为动词,则将第i+1层的该第四标签转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果包括多个第四标签,且该多个第四标签的词性为动词和介词,则该动词和介词词性的第四标签组合作为与其对应的前i层标签的组合标签的属性信息。

12.根据权利要求8所述的方法,其特征在于,所述基于所述标签树结构获得所述数据集合包括:分别从各类别的所述标签树结构的第j层节点中获取一个第五标签,以及与所述第五标签对应的第五数据,其中,j为大于或者等于1且小于M的整数,M为所述标签树结构的层数;

基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。

13.根据权利要求8所述的方法,其特征在于,所述基于所述标签树结构获得所述数据集合包括:分别从各所述标签树结构中随机地筛选第五标签,其中,任意两个被筛选的第五标签之间不存在相同的父类;

基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。

14.根据权利要求1所述的方法,其特征在于,所述方法还包括:分别利用不同的数据集合训练网络模型中的不同分类器;

基于满足预设要求的分类器形成所述网络模型。

15.根据权利要求14所述的方法,其特征在于,所述分别利用不同的数据集合训练所述网络模型中的不同分类器包括:为每个分类器分配对应的数据集合对所述分类器进行训练,其中各分类器对应的数据集合内的标签不同;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及利用所述数据集合中的第二部分集合训练第二部分分类器;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及所述数据集合中的利用第一部分集合和第二部分集合训练第二部分分类器;

其中,所述第一部分分类器和第二部分分类器为所述网络模型中的分类器,且所述第一部分分类器和第二部分分类器分别至少包括一个分类器。

16.根据权利要求1所述的方法,其特征在于,所述数据包括图像数据、音频数据和视频数据中的至少一种。

17.根据权利要求14所述的方法,其特征在于,所述方法还包括通过网络模型预测输入的第三数据的标签类别,其包括:利用各分类器预测第三数据的第一标签类别,以及各第一标签类别的第一预测概率;

基于第一标签树结构,将作为父类节点的第一标签类别的第一预测概率乘以作为其子类的第一标签类别的第一预测概率,得到各作为子类的第一标签类别的第二预测概率;

将第二预测概率最高的第一标签类别确定为所述第三数据的标签类别。

18.一种信息处理装置,其特征在于,包括:

扩展模块,其配置为按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;

获取模块,其配置为基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签,所述数据集合用于训练网络模型。

19.根据权利要求18所述的装置,其特征在于,所述扩展模块进一步配置为将所述种子标签作为与其对应的所述多层级标签结构的第一层标签;

将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;

获取所述组合标签的扩展标签,所述扩展标签为所述多层级标签结构的第i+1层与所述组合标签对应的标签。

20.根据权利要求19所述的装置,其特征在于,所述扩展模块进一步配置为通过查询第一数据库,获取所述组合标签的扩展标签,其中所述第一数据库中包括各标签及其扩展标签;或者通过向网络搜索引擎请求获取组合标签的扩展标签。

21.根据权利要求18所述的装置,其特征在于,所述扩展模块进一步配置为获得与所述种子标签对应的第一数据;以及将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签,并获得与所述组合标签对应的第二数据。

22.根据权利要求21所述的装置,其特征在于,所述扩展模块进一步配置为通过查询第二数据库,获得与所述种子标签对应的第一数据,所述第二数据库中包括多个第一数据,每个第一数据对应有至少一种标签;或者利用网络搜索引擎获取所述种子标签对应的第一数据。

23.根据权利要求21所述的装置,其特征在于,所述扩展模块进一步配置为通过查询第二数据库,获得与所述组合标签对应的第二数据,所述第二数据库中包括标签以及与该标签对应的数据;或者利用网络搜索引擎获取所述组合标签对应的第二数据。

24.根据权利要求18所述的装置,其特征在于,所述获取模块进一步配置为利用预设筛选方式,从获得的数据中获取第三数据,以及获取第三数据中各数据对应的第三标签,并基于所述第三标签和第三数据形成所述数据集合,其中,所述预设筛选方式包括随机筛选方式或者基于数据对应的标签的类别执行筛选的方式。

25.根据权利要求18所述的装置,其特征在于,所述获取模块进一步配置为对所述多层级标签结构中的各标签进行归类处理,形成关于至少一个类别的标签树结构,并基于所述标签树结构获得所述数据集合。

26.根据权利要求25所述的装置,其特征在于,所述获取模块包括:第一归类单元,其配置为对所述种子标签进行第一归类处理,建立关于至少一个类别的第一标签树结构,所述类别包括物体、地点、事件和时间中的至少一种;

第二归类单元,其配置为对所述种子标签以外的其余标签进行第二归类处理,形成基于所述第一标签树结构的第二标签树结构。

27.根据权利要求26所述的装置,其特征在于,所述第一归类单元进一步配置为构建关于各所述种子标签之间的从属关系的第一子标签树结构,其中所述从属关系表示各所述种子标签之间的父类和子类的对应关系;

并配置为获取各所述第一子标签树结构的根节点的父类信息,如果存在至少两个第一子标签树结构的根节点具有相同的父类,则将该至少两个第一子标签树结构的根节点作为该父类节点的子类进行融合形成新的第一子标签树结构,直至各第一子标签树结构的根节点不存在相同的父类,形成关于至少一个类别的第一标签树结构。

28.根据权利要求26所述的装置,其特征在于,所述第二归类单元进一步配置为获取多层级标签结构中第i+1层各第四标签的词性;

如果所述第四标签的词性为形容词,则将第i+1层的该第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果所述第四标签的词性为名词,则确定该第四标签的对应的前i+1层标签的组合标签是否为前i层对应的标签的组合标签的子类,如是,将该前i+1层标签的组合标签添加至所述第一标签树结构并作为所述前i层对应的标签的组合标签的子类,否则,将所述第四标签的词性转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果所述第四标签的词性为动词,则将第i+1层的该第四标签转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;

如果包括多个第四标签,且该多个第四标签的词性为动词和介词,则该动词和介词词性的第四标签组合作为与其对应的前i层标签的组合标签的属性信息。

29.根据权利要求25所述的装置,其特征在于,所述获取模块进一步配置为分别从各类别的所述标签树结构的第j层节点中获取一个第五标签,以及与所述第五标签对应的第五数据,其中,j为大于或者等于1且小于M的整数,M为所述标签树结构的层数,并基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。

30.根据权利要求25所述的装置,其特征在于,所述获取模块进一步配置为分别从各所述标签树结构中随机地筛选第五标签,其中,任意两个被筛选的第五标签之间不存在相同的父类;

基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。

31.根据权利要求25所述的装置,其特征在于,还包括:

训练模块,其配置为分别利用不同的数据集合训练网络模型中的不同分类器,基于满足预设要求的分类器形成所述网络模型。

32.根据权利要求31所述的装置,其特征在于,所述训练模块进一步配置成为每个分类器分配对应的数据集合对所述分类器进行训练,其中各分类器对应的数据集合内的标签不同;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及利用所述数据集合中的第二部分集合训练第二部分分类器;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及所述数据集合中的利用第一部分集合和第二部分集合训练第二部分分类器;

其中,所述第一部分分类器和第二部分分类器为所述网络模型中的分类器,且所述第一部分分类器和第二部分分类器分别至少包括一个分类器。

33.根据权利要求18所述的装置,其特征在于,所述数据包括图像数据、音频数据和视频数据中的至少一种。

34.根据权利要求31所述的装置,其特征在于,还包括:

应用模块,其配置为利用各分类器预测第三数据的第一标签类别,以及各第一标签类别的第一预测概率;

基于第一标签树结构,将作为父类节点的第一标签类别的第一预测概率乘以作为其子类的第一标签类别的第一预测概率,得到各作为子类的第一标签类别的第二预测概率;

将第二预测概率最高的第一标签类别确定为所述第三数据的标签类别。

35.一种电子设备,其特征在于,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:执行权利要求1至17中任意一项所述的数据处理方法。

36.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至17中任意一项所述的数据处理方法。