利索能及
我要发布
收藏
专利号: 2018100675005
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-23
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像描述方法,其特征在于,包括:获取图像对应的二维多通道形式表达的图像特征;

基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;

基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。

2.根据权利要求1所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:将所述二维多通道形式表达的图像特征输入循环神经网络,得到至少一个二维多通道形式表达的状态变量。

3.根据权利要求1所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,其中,所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量,其中,i≥1。

4.根据权利要求3所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,包括:

基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量,得到二维多通道形式表达的所述第i+1状态变量,其中,所述第i词语特征是由所述第i状态变量对应的词语得到的。

5.根据权利要求3所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,包括:

对所述第i状态变量进行卷积处理,得到所述第i+1状态变量。

6.根据权利要求5所述的方法,其特征在于,所述对所述第i状态变量进行卷积处理,得到所述第i+1状态变量,包括:分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理,得到第一卷积结果、第二卷积结果和第三卷积结果;

利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量。

7.根据权利要求6所述的方法,其特征在于,所述利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量,包括:对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理,得到合并卷积结果;

利用激活函数对所述合并卷积结果进行处理,得到所述第i+1状态变量。

8.根据权利要求6所述的方法,其特征在于,所述激活函数具体为线性单元修正函数ReLu。

9.根据权利要求1‑8任一所述的方法,其特征在于,所述获取图像对应的二维多通道形式表达的图像特征,包括:

对图像执行卷积操作,得到所述图像对应的二维多通道形式表达的图像特征。

10.根据权利要求1‑8任一所述的方法,其特征在于,所述基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语,包括:对所述至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作,得到池化结果;

基于池化结果,得到所述至少一个描述词语中的第j词语,其中,j≥1。

11.根据权利要求10所述的方法,其特征在于,所述基于池化结果,得到所述至少一个描述词语中的第j词语,包括:基于池化结果,得到概率向量;

基于所述概率向量中的最大概率值,确定所述第j词语。

12.根据权利要求1‑8任一所述的方法,其特征在于,所述状态变量为隐含态。

13.根据权利要求1‑8任一所述的方法,其特征在于,还包括:确定所述至少一个词语中每个词语的关联通道;

确定所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,其中,所述激活区域包括至少一个激活像素点;

基于所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,对所述词语对应的激活状态变化实现可视化。

14.根据权利要求13所述的方法,其特征在于,所述至少一个状态变量中的第k状态变量包括的所述关联通道对应于二维特征图;

所述确定所述关联通道在所述至少一个状态变量中每个状态变量对应的激活区域,包括:

对所述二维特征图进行插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸;

基于插值处理后的所述二维特征图,获得所述图像中对应数值达到预设阈值的至少一个激活像素点。

15.根据权利要求14所述的方法,其特征在于,所述对所述二维特征图进行插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸,包括:对所述二维特征图进行双三次插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸。

16.根据权利要求13所述的方法,其特征在于,所述确定所述至少一个词语中每个词语的关联通道,包括:

确定所述至少一个词语中每个词语与多个通道中每个通道的关联分数;

基于所述每个词语与所述多个通道中每个通道的关联分数,从所述多个通道中确定所述每个词语的关联通道。

17.一种图像描述装置,其特征在于,包括:特征获取单元,用于获取图像对应的二维多通道形式表达的图像特征;

状态变量单元,用于基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;

词语描述单元,用于基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。

18.根据权利要求17所述的装置,其特征在于,所述状态变量单元,具体用于将所述二维多通道形式表达的图像特征输入循环神经网络,得到至少一个二维多通道形式表达的状态变量。

19.根据权利要求17所述的装置,其特征在于,所述状态变量单元,具体用于基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,其中,所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量,其中,i≥1。

20.根据权利要求19所述的装置,其特征在于,所述状态变量单元,用于基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量,得到二维多通道形式表达的所述第i+1状态变量,其中,所述第i词语特征是由所述第i状态变量对应的词语得到的。

21.根据权利要求19所述的装置,其特征在于,所述状态变量单元,用于对所述第i状态变量进行卷积处理,得到所述第i+1状态变量。

22.根据权利要求21所述的装置,其特征在于,所述状态变量单元,包括:卷积处理模块,用于分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理,得到第一卷积结果、第二卷积结果和第三卷积结果;

激活处理模块,用于利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量。

23.根据权利要求22所述的装置,其特征在于,所述激活处理模块,具体用于对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理,得到合并卷积结果;利用激活函数对所述合并卷积结果进行处理,得到所述第i+1状态变量。

24.根据权利要求22所述的装置,其特征在于,所述激活函数具体为线性单元修正函数ReLu。

25.根据权利要求17‑24任一所述的装置,其特征在于,所述特征获取单元,具体用于对图像执行卷积操作,得到所述图像对应的二维多通道形式表达的图像特征。

26.根据权利要求17‑24任一所述的装置,其特征在于,所述词语描述单元,包括:池化处理模块,用于对所述至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作,得到池化结果;

词语获取模块,用于基于池化结果,得到所述至少一个描述词语中的第j词语,其中,j≥1。

27.根据权利要求26所述的装置,其特征在于,所述词语获取模块,具体用于基于池化结果,得到概率向量;

基于所述概率向量中的最大概率值,确定所述第j词语。

28.根据权利要求17‑24任一所述的装置,其特征在于,所述状态变量为隐含态。

29.根据权利要求17‑24任一所述的装置,其特征在于,还包括:通道确定单元,用于确定所述至少一个词语中每个词语的关联通道;

激活区域单元,用于确定所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,其中,所述激活区域包括至少一个激活像素点;

可视化单元,用于基于所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,对所述词语对应的激活状态变化实现可视化。

30.根据权利要求29所述的装置,其特征在于,所述至少一个状态变量中的第k状态变量包括的所述关联通道对应于二维特征图;

所述激活区域单元,包括:

尺寸处理模块,用于对所述二维特征图进行插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸;

激活像素模块,用于基于插值处理后的所述二维特征图,获得所述图像中对应数值达到预设阈值的至少一个激活像素点。

31.根据权利要求30所述的装置,其特征在于,所述尺寸处理模块,具体用于对所述二维特征图进行双三次插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸。

32.根据权利要求29所述的装置,其特征在于,所述通道确定单元,具体用于确定所述至少一个词语中每个词语与多个通道中每个通道的关联分数;

基于所述每个词语与所述多个通道中每个通道的关联分数,从所述多个通道中确定所述每个词语的关联通道。

33.一种电子设备,其特征在于,包括处理器,所述处理器包括权利要求17至32任意一项所述的图像描述装置。

34.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;

以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至16任意一项所述图像描述方法的操作。

35.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1至16任意一项所述图像描述方法的操作。