利索能及
我要发布
收藏
专利号: 202210223976X
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于包括以下步骤:步骤1;对输入的图像进行预处理,通过使用对象检测模块提取输入图像中显著区域的视觉特征与几何特征;

步骤2;对于问题文本的嵌入,使用空格与标点符号的方法将句子分割成单词;接下来采用预训练的词向量模型将单词执行向量化表示;最后将词向量表示通过长短时记忆网络,获取最后一个时间步上的状态,得到问题特征;

步骤3;对于图像字幕与密集字幕文本的嵌入,同样利用空格与标点符号将句子分割成单词;然后将得到的多个字幕特征级联,转化为文本段落的形式;最后使用长短时记忆网络编码文本段落,最后一层的输出则为编码后的词向量序列;

步骤4;对步骤1与步骤2得到的视觉特征与问题特征使用注意力机制,获取与问题相关的注意力特征;将步骤1与步骤2得到的视觉特征、几何特征与问题特征通过关系推理模块,输出关系特征;最后将注意力特征与关系特征融合产生视觉特征表示;

步骤5;将步骤2与步骤3得到的词向量序列与问题特征输入至多角度语义模块,来产生多角度语义特征;

步骤6;将步骤4与步骤5产生的视觉特征与多角度语义特征送入视觉语义选择门,通过特征融合的方式控制视觉通道与语义通道对预测答案的贡献;答案的预测将通过多分类器选出概率最高的答案作为最终答案。

2.根据权利要求1所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述步骤1)中,使用对象检测模块具体是指:采用Faster R‑CNN模型来获得对象检测框,并选择最相关的K个检测框作为重要视觉区域;对于每个选定的区域i,vi是一个d维T的视觉对象向量,则输入的图像最终表示为V={v1,v2,…,vK} , 此外,还记录输入T图像的几何特征,记为B={b1,b2,…,bK} ,其中 (xi,yi),wi,hi分别表示选定区域i的中心坐标、宽度与高度;w,h分别表示输入图像的宽度与高度。

3.根据权利要求2所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述步骤2)具体按照以下步骤实施:首先将每个输入问题Q修剪到最多14个单词,简单丢弃超过14个单词的额外单词,同时不足14个单词的问题用0向量填补;然后将包含14个单词的问题转变为Glove词向量,由此产生的单词嵌入序列大小为14×300,并将其依次通过隐藏层为dq维的长短时记忆网络;最后使用 的最终隐藏状态为输入问题Q的问题嵌入表示;

所述的步骤3)中的文本嵌入实施步骤,除不包括将图像字幕与密集字幕级联外,其余均与步骤2)的文本嵌入步骤相同。

4.根据权利要求3所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述步骤4)中的注意力机制具体是指:引入自上向下的注意机制并用软注意力方法作为注意力模块引入到网络结构中突出与问题相关的视觉对象,输出注意力特征;其中所有视觉区域及相应的注意力特征 的加权求和表示为:T

Vat=A·V

T

其中A=[ω1,ω2,…,ωK]是注意力的映射矩阵;

所述步骤4)中的关系推理模块具体是指:通过双卷积流的方式实现编码图像区域之间的关系,并生成两种不同类型的关系特征分别为二元关系特征与多元关系特征;关系推理模块由三部分组成:特征融合,二元关系推理,多元关系推理;特征融合模块负责将视觉特征、几何特征与问题特征通过升维与降维的方式融合产生视觉区域特征的成对组合;二元关系推理模块负责挖掘视觉区域间的成对视觉关系,并通过三个连续的1×1卷积层的方式生成二元关系特征;多元关系推理模块则负责挖掘视觉区域间的组内视觉关系,并通过三个连续的3×3空洞卷积层的方式生成多元关系特征;最后将二元关系特征与多元关系特征组合得到关系特征。

5.根据权利要求4所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述特征融合的步骤是:首先本发明将图像K个视觉区域的对象特征与几何特征,将二者级联生成视觉区域特征Vco=concat[V,B];其次将视觉区域特征Vco与问题特征映射到低维的子空间中:其中Wv与Wq是学习参数,bq与bv是偏置; 其中ds是子空间

的维度;

所述二元关系推理的步骤是,采用三个连续的1×1卷积层,并且在每层卷积层后采用ReLU激活层;这三个1×1卷积层的通道数分别为ds, 以及 将视觉区域组合特征Vfu输入到二元关系推理模块中,则在最后一层的输出为 再将 与其转置相加获得对称矩阵,最后通过softmax生成二元关系Rp,具体公式如下:所述多元关系推理的步骤是:采用三个连续的3×3的空洞卷积层,并且在每层卷积层后采用ReLU激活层;三个空洞卷积层的空洞分别是1,2和4;所有卷积的步长均为1,并且为使每次卷积的输出与输入的尺寸相同采用零边缘填充;将视觉区域成对组合Vfu输入到多元关系推理模块中,在最后一个卷积层与ReLU激活层的输出是 与二元关系推理同理,将 与其转置相加得到一个对称矩阵,最后经过softmax生成多元关系Rg,公式如下:

6.根据权利要求5所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:步骤4的具体实施步骤如下:首先,按照多模态融合:

d

其中1∈R是元素均为1的向量,而 表示逐元素相乘。

其次,对所有图像区域采用相同的映射矩阵 和

d

其中P∈R是学习参数。为获取注意力映射矩阵,对于图像区域i的注意力权重ωi如下式:因此所有视觉区域及相应的注意力特征 的加权求和表示为:

T

Vat=A·V

T

其中A=[ω1,ω2,…,ωK]是注意力的映射矩阵。

7.根据权利要求6所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述步骤5)中的多角度语义模块是将问题特征与字幕特征关联;具体方法是:首先利用余弦相似度的方法遍历计算字幕ti与问题qj的相关性,选取与问题qj最相关的文本特征;其次将权重系数Ri与字幕特征ti相结合,使与问题更相关的语义信息得到更多的关注,即 其中 表示权重字幕特征;然后采用双向LSTM(BiLSTM)编码字幕的每个单词,同时也采用BiLSTM编码问题的每个单词;最后采用完全融合、平均池化融合、注意力融合及最大注意力融合四种方法提升模型理解语义信息的泛化能力。

8.根据权利要求7所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:步骤5的具体实施步骤如下:步骤5.1:将问题特征与字幕特征关联,首先利用余弦相似度的方法遍历计算字幕ti与问题qj的相关性,选取与问题qj最相关的文本特征;其次将权重系数Ri与字幕特征ti相结合,使与问题更相关的语义信息得到更多的关注,即 其中 表示权重字幕特征;

然后采用双向LSTM或BiLSTM编码字幕的每个单词,同时也采用BiLSTM编码问题的每个单词;最后采用完全融合、平均池化融合、注意力融合及最大注意力融合四种方法提升模型理解语义信息的泛化能力;

步骤5.2:采用双向LSTM或BiLSTM编码字幕的每个单词,同时也采用BiLSTM编码问题的每个单词:其中 分别表示字幕的正向与反向LSTM在第i个时间步上的隐藏状态。

分别表示问题的正向与反向LSTM在第j个时间步上的隐藏状态;

步骤5.3:分别采用完全融合、平均池化融合、注意力融合及最大注意力融合四种融合策略以捕捉高级语义信息。

9.根据权利要求8所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:所述完全融合,是将字幕段落的每个前向和反向词向量分别与整个问题的前向和反向的最终状态传入F函数中进行融合,具体公式如下:其中 为l维的向量,分别表示第i个字幕词向量的前向及反向的完全融合特征;

所述平均池化融合,将字幕段落的前向或反向词向量特征与每个时间步上的前向(或反向)问题特征传入F函数中进行融合,再执行平均池化操作,具体公式如下:其中 为l维的向量,分别表示第i个字幕词向量的前向及反向的平均池化融合特征;

所述注意力融合,首先通过余弦相似度函数计算字幕上下文嵌入与问题上下文嵌入间的相似程度系数,再将相似程度系数视为权重,与问题的每个前向(或反向)词向量嵌入相乘并求均值,具体公式如下:其中 分别表示前向与反向的相似程度系数, 分别对应第i个字

幕词向量前向与反向的注意力向量,表示问题整体与该词的相关性;

最后,将注意力向量与字幕上下文嵌入传入F函数中进行融合,得到第i个字幕词向量的前向及反向的注意力融合特征,上述过程如下式:所述最大注意力融合,是直接将具有最大相似程度系数的问题嵌入作为注意力向量,最后再将注意力向量与字幕嵌入传入F函数中进行融合,具体公式如下:

10.根据权利要求9所述的基于多角度语义理解与自适应双通道的视觉问答方法,其特征在于:步骤5)的四种融合方法,将生成的8个特征向量级联获得的第i个字幕的综合融合特征,记为将综合融合特征输入

到双向LSTM(BiLSTM)中,并获取两个方向上的最终隐藏状态,公式如下所示:其次,将首尾两处的最终隐藏状态级联生成多角度语义特征 最

后,为便于多模态特征融合,将多角度语义特征映射至与视觉表示相同的维度,公式如下:其中 为可学习的权重矩阵,bs为偏置。