利索能及
我要发布
收藏
专利号: 2017102786760
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像消歧方法,其特征在于,包括:对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别,得到N个K维语义特征概率向量,其中,所述图像集合包括N个图像,N和K均为正整数,且N大于或等于2;

根据所述N个K维语义特征概率向量确定差异特征组合,所述差异特征组合用于描述图像集合中各图像相似目标之间的区别;

根据所述差异特征组合和所述图像集合中的各图像的图像特征,生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言;

所述根据所述N个K维语义特征概率向量确定差异特征组合,包括:N

分别从所述各图像中选择任一语义特征概率向量进行组合,得到K个特征组合;

N

根据所述K个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中N

的至少一种语义特征信息,对所述K个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分;

N

根据评分结果确定所述K个特征组合中的部分特征组合为所述差异特征组合。

2.根据权利要求1所述的方法,其特征在于,所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别,得到N个K维语义特征概率向量,包括:基于深度神经网络提取所述图像集合中各图像的图像特征;

根据提取的各图像特征并基于多层感知器对各图像进行语义识别,得到所述N个K维语义特征概率向量。

N

3.根据权利要求1所述的方法,其特征在于,所述根据评分结果确定所述K 个特征组合中的部分特征组合为所述差异特征组合,包括:将所述评分结果中分数最高的特征组合确定为所述差异特征组合,或者,将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

4.根据权利要求1所述的方法,其特征在于,在评分时依据多种语义特征信息的情形N

下,所述对所述K个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分,还包括:

N

将所述K个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并,得到每个特征组合的评分结果。

5.根据权利要求1‑4任一所述的方法,其特征在于,所述根据所述差异特征组合和所述图像集合中的各图像的图像特征,生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言,包括:根据所述差异特征组合和所述图像集合中的各图像的图像特征,并基于长短记忆单元递归神经网络对各图像进行自然语言识别,生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言。

6.根据权利要求1‑5任一所述的方法,其特征在于,在所述生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的自然语言之后,所述方法还包括:

接收针对所述提问式自然语言的回复信息;

根据所述回复信息生成新的自然语言,和/或,根据所述回复信息在所述图像集合中确定目标图像。

7.根据权利要求1‑6任一所述的方法,其特征在于,所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前,还包括:接收图像或视频的搜索信息。

8.一种图像消歧装置,其特征在于,包括:提取识别模块,用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别,得到N个K维语义特征概率向量,其中,所述图像集合包括N个图像,N和K均为正整数,且N大于或等于2;

确定模块,用于根据所述N个K维语义特征概率向量确定差异特征组合,所述差异特征组合用于描述图像集合中各图像相似目标之间的区别;

生成模块,用于根据所述差异特征组合和所述图像集合中的各图像的图像特征,生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言;

所述确定模块,包括:

N

组合子模块,用于分别从所述各图像中选择任一语义特征概率向量进行组合,得到K 个特征组合;

N

评分子模块,用于根据所述K 个特征组合中的语义特征的置信概率、语义特征的类型、N

语义特征的差别中的至少一种语义特征信息,对所述K个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分;

N

确定子模块,用于根据评分结果确定所述K个特征组合中的部分特征组合为所述差异特征组合。

9.根据权利要求8所述的装置,其特征在于,所述提取识别模块,包括:提取子模块,用于基于深度神经网络提取所述图像集合中各图像的图像特征;

识别子模块,用于根据提取的各图像特征并基于多层感知器对各图像进行语义识别,得到所述N个K维语义特征概率向量。

10.根据权利要求9所述的装置,其特征在于,所述确定子模块,用于将所述评分结果中分数最高的特征组合确定为所述差异特征组合,或者,将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

11.根据权利要求8所述的装置,其特征在于,所述评分子模块,还用于在评分时依据多N

种语义特征信息的情形下,将所述K个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并,得到每个特征组合的评分结果。

12.根据权利要求8‑11任一所述的装置,其特征在于,所述生成模块,用于根据所述差异特征组合和所述图像集合中的各图像的图像特征,并基于长短记忆单元递归神经网络对各图像进行自然语言识别,生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言。

13.根据权利要求8‑12任一所述的装置,其特征在于,所述装置还包括:回复接收模块,用于在所述生成模块生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的自然语言之后,接收针对所述提问式自然语言的回复信息;

回复处理模块,用于根据所述回复信息生成新的自然语言,和/或,根据所述回复信息在所述图像集合中确定目标图像。

14.根据权利要求8‑13任一所述的装置,其特征在于,所述装置还包括:搜索接收模块,用于在所述提取识别模块对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前,接收图像或视频的搜索信息。

15.一种电子设备,其特征在于,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1‑7任一项所述的图像消歧方法对应的操作。

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有:用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别,得到N个K维语义特征概率向量的可执行指令,其中,所述图像集合包括N个图像,N和K均为正整数,且N大于或等于2;

用于根据所述N个K维语义特征概率向量确定差异特征组合的可执行指令,所述差异特征组合用于描述图像集合中各图像相似目标之间的区别;

用于根据所述差异特征组合和所述图像集合中的各图像的图像特征,生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言的可执行指令;

所述根据所述N个K维语义特征概率向量确定差异特征组合的可执行指令,包括:N

分别从所述各图像中选择任一语义特征概率向量进行组合,得到K个特征组合;

N

根据所述K个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中N

的至少一种语义特征信息,对所述K个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分;

N

根据评分结果确定所述K个特征组合中的部分特征组合为所述差异特征组合。