买专利、卖专利、专利购买、专利交易、专利出售、高企申报-图像识别方法、装置、计算机设备和存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

图像识别方法、装置、计算机设备和存储介质

面议

专利号： 2022105833868

申请人：上海商汤智能科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种图像识别方法，其特征在于，包括：

获取待识别的图像对应的特征序列，所述特征序列包括在所述图像的特征图中，与各个区域分别对应的图像特征；

基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，以及将所述特征序列对应的键矩阵中的每个初始键特征，在所述第一特征维度下的第二初始位置，转换为在所述第二特征维度下的第二目标位置；所述第一目标位置包括第一目标行坐标和第一目标列坐标；所述目标尺寸包括特征图的高度大小和宽度大小；

基于所述第一目标位置，确定每个所述初始查询特征对应的第一加权权重，并基于所述第二目标位置，确定每个所述初始键特征对应的第二加权权重；所述第一加权权重包括第一目标行坐标和第一目标列坐标分别对应的两个子权重；其中，将所述第一加权权重和所述第二加权权重分别作为目标加权权重，将所述第一目标位置和第二目标位置分别作为目标位置，则：所述目标加权权重包括：对该目标加权权重对应的目标位置中的行坐标和列坐标分别执行取正弦操作和执行取余弦操作后的子权重；

针对所述特征序列中的每个所述图像特征，基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征，确定所述图像特征对应的注意力融合特征；

基于每个所述图像特征对应的注意力融合特征，确定所述图像对应的图像识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，包括：针对每个所述初始查询特征，基于所述初始查询特征对应的第一初始位置指示的第一初始行坐标和所述特征图的目标尺寸所指示的高度大小，确定所述初始查询特征对应的第一目标行坐标；

基于所述初始查询特征对应的第一初始位置指示的第一初始列坐标，和所述特征图的目标尺寸所指示的宽度大小，确定所述初始查询特征对应的第一目标列坐标。

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征，确定所述图像特征对应的注意力融合特征，包括：利用目标核函数，将所述初始查询特征转换为目标查询特征，以及将每个所述初始键特征转换为目标键特征；

利用所述初始查询特征的所述第一加权权重对应的各个所述子权重，分别对所述初始查询特征对应的目标查询特征进行加权处理，得到所述初始查询特征对应的各个第一加权结果；

针对每个所述初始键特征，利用所述初始键特征的所述第二加权权重对应的各个所述子权重，分别对所述初始键特征对应的目标键特征进行加权处理，得到所述初始键特征对应的各个第二加权结果；

基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各个所述第二加权结果、以及每个所述目标值特征，确定所述图像特征对应的注意力融合特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各个所述第二加权结果、以及每个所述目标值特征，确定所述图像特征对应的注意力融合特征，包括：针对每个所述初始键特征，基于与该初始键特征对应于相同图像特征的目标值特征，分别与该初始键特征对应的各个所述第二加权结果的乘积的和，得到该初始键特征对应的第三加权结果；

将每个所述初始键特征分别对应的各个所述第二加权结果相加，得到第四加权结果；

基于各个所述第一加权结果、各个所述初始键特征对应的第三加权结果之和、以及所述第四加权结果，确定所述图像特征对应的注意力融合特征。

5.根据权利要求1所述的方法，其特征在于，所述基于每个所述图像特征对应的注意力融合特征，确定所述图像对应的图像识别结果，包括：针对由每个区域的所述图像特征对应的注意力融合特征组成的第一注意力矩阵，执行线性全连接操作，得到第二注意力矩阵；

基于所述第二注意力矩阵，确定所述图像识别结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二注意力矩阵，确定所述图像识别结果，包括：对所述特征序列进行池化操作，得到池化后的特征序列矩阵；

将所述池化后的特征序列矩阵和所述第二注意力矩阵相乘，得到第三注意力矩阵；

将所述第三注意力矩阵和所述第二注意力矩阵相加，得到目标注意力矩阵，并基于所述目标注意力矩阵确定所述图像识别结果。

7.根据权利要求1所述的方法，其特征在于，获取待识别的图像对应的特征序列，包括：获取待识别的图像；

基于待识别的所述图像，生成具有所述目标尺寸的特征图；

根据所述特征图中每个区域的图像特征，得到所述特征序列。

8.根据权利要求7所述的方法，其特征在于，所述根据所述特征图中每个区域的图像特征，得到所述特征序列，包括：根据每个所述区域在所述特征图中对应的行列坐标，确定所述区域对应的图像特征在所述特征序列中的位置；

按照每个所述图像特征对应的位置对各个所述图像特征进行排列，得到所述特征序列。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括确定所述查询矩阵、所述键矩阵和所述值矩阵的步骤：利用目标特征矩阵分别对所述特征序列进行特征映射处理，得到所述特征序列对应的所述查询矩阵、所述键矩阵和所述值矩阵；其中，所述查询矩阵、所述键矩阵和所述值矩阵分别对应不同的所述目标特征矩阵，所述查询矩阵、所述键矩阵和所述值矩阵分别对应于所述第一特征维度。

10.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别的图像对应的特征序列，所述特征序列包括在所述图像的特征图中，与各个区域分别对应的图像特征；

转换模块，用于基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，以及将所述特征序列对应的键矩阵中的每个初始键特征，在所述第一特征维度下的第二初始位置，转换为在所述第二特征维度下的第二目标位置；所述第一目标位置包括第一目标行坐标和第一目标列坐标；所述目标尺寸包括特征图的高度大小和宽度大小；

第一确定模块，用于基于所述第一目标位置，确定每个所述初始查询特征对应的第一加权权重，并基于所述第二目标位置，确定每个所述初始键特征对应的第二加权权重；所述第一加权权重包括第一目标行坐标和第一目标列坐标分别对应的两个子权重；其中，将所述第一加权权重和所述第二加权权重分别作为目标加权权重，将所述第一目标位置和第二目标位置分别作为目标位置，则：所述目标加权权重包括：对该目标加权权重对应的目标位置中的行坐标和列坐标分别执行取正弦操作和执行取余弦操作后的子权重；

第二确定模块，用于针对所述特征序列中的每个所述图像特征，基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征，确定所述图像特征对应的注意力融合特征；

第三确定模块，用于基于每个所述图像特征对应的注意力融合特征，确定所述图像对应的图像识别结果。

11.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至9任意一项所述的图像识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至9任意一项所述的图像识别方法的步骤。