利索能及
我要发布
收藏
专利号: 2021114615637
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向医学图像诊断的视觉问答方法,其特征在于,包括以下步骤:获取医学影像和对应相关医学问题;

对图像病灶目标和医学问题文本分别进行特征提取,捕捉问题词之间的依赖关系进行文本表示学习,得到每个图像区域和问题的相关性;

通过与影像特征和位置特征交互,对同一病灶目标进行处理,实现关系关联建模,获得不同目标的相对位置关系,用于多模态特征的匹配;

引入交叉引导的多模态特征融合堆叠方式,捕捉多模态之间的复杂交互关系;

设计选取融合方式和分类器,运用到医学问答中,实现面向医学图像诊断的视觉问答研究。

2.根据权利要求1所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述医学影像和对应相关医学问题,具体包括以下步骤:在网上下载医学相关影像资料和问题标签,其中包括图片,主要是CT、MRI在内的扫描图像,以及与图片相匹配的问题和问题对应的真实答案,形成图片、问题、答案的一组对象。

3.根据权利要求1或2所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述对图像病灶目标和医学问题文本分别进行特征提取,具体包括:对图片和问题进行特征提取:输入一幅扫描图像,使用基于ResNet‑101的Faster R‑CNN的目标检测算法提取图像中的相关区域;输入一个英文句子,通过词嵌入和循环神经网络后得到问题特征。

4.根据权利要求3所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述图片特征获取具体包括:采用Faster‑RCNN与Resnet101相结合的方式处理图像信息:首先利用残差网络Resnet101提取影像中的全局图像特征,然后根据目标检测算法Faster‑RCNN来识别抽取图像的局部特征,获得相应病灶信息;对图像中的每一个区域不仅使用对象检测器,还使用属性分类器,每一个对象包围框都有一个对应的属性类,这样可以获得对象的二元描述,每幅图像提取K个对象区域,每个对象区域用一个2048维的向量表示,作为后续网络的输入。

5.根据权利要求3或4所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述问题特征获取具体包括:输入的医学问题首先会被处理为单个单词,最长截取为14个单词,多余的丢弃,少于14个的用零填充;然后结合300维的GloVe词向量模型捕捉单词的语义特征,转化为向量模式,再利用LSTM网络对文本特征进行编码从而抽取问题语义特征信息,作为后续网络的输入。

6.根据权利要求5所述的一种面向医学图像诊断的视觉问答方法,其特征在于,还通过设置一个自我识别模块来获取影像区域间特征和问题词间特征,自我识别模块对是一种注意模型,通过自相关学习获取影像区域间特征和问题词间特征;自我识别模块的核心是注意力机制;该输入由一个维度为d_key的查询键和一个维度为d_value的值组成;首先,计算查询键与所有键的点积,并将每个键除以√d;然后,应用softmax函数获得需要的值的权重;实际上,为了同步计算一组查询键的注意权重,将它们打包到矩阵Q中;键和值也被打包到矩阵K和V中。

7.根据权利要求6所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述注意模型采用H个并行头的注意力机制模型,它允许模型同时关注来自不同位置的不同表示子空间的信息,将输出特征矩阵计算为:

1 2 H 0

F=MultiHead(Q,K,V)=Concat([head ,head ,…head])W自我识别模块由注意力机制模型和前馈网络组成,用于提取影像或医学问题的细微特征;

学习注意力特征得到权重后,输出问题特征;然后将它们输入LayerNorm层;前馈层包含两个全连接层以及ReLu函数和Dropout函数,最后是LayerNorm层,经过自我关注得到最终的特征

8.根据权利要求7所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述通过与影像特征和位置特征交互,对同一病灶目标进行处理,实现关系关联建模,获得不同目标的相对位置关系,具体包括:

输入对象由图像特征 和位置特征P组成, 是经过自我识别模块得到的特征,P是一个四维对象框;

为了计算位置特征权重,将一个对象坐标表示为{xi,yi,hi,wi},其中xi表示对象中心的横坐标位置,yi表示对象中心的纵坐标位置,wi表示对象框的宽度,hi表示对象框的高度。首先,对P的坐标进行如下变换, m、n分别表示两个对象框,进行尺度归一化和对数运算;输入的N个对象可以表示为接着,将两个物体的几何特征嵌入到高维特征中表示为εG,将WG与嵌入特征相乘,得到一个权重,其中的WG也是由一个全连接层实现的;最后的max操作类似于relu层,其主要目的是对位置特征权重施加一定的限制;

表示两个对象之间的位置特征权重。

εG表示将几何特征嵌入到高维特征。

m n

P ,P表示m、n两个对象的几何特征。

通过下列公式可以得到第n个对象与整个集合之间的对象关系;

R(n)表示第n个对象与整个集合之间的对象关系。

mn

表示第m个物体的图像特征,w 为不同物体之间关系的权重,WV用于线性变化,最终得到其他物体图像特征的加权和;

mn

以下是w 和 计算公式。

表示m、n两个对象之间的图像特征权重表示m、n两个对象之间的相对位置特征权重k表示物体对象个数

表示第k个物体对象与第n个物体对象之前的相对位置特征权重得到关系特征R(n)后,最后一步是融合Nr关系特征,然后与图像特征 进行融合,

9.根据权利要求8所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述引入交叉引导的多模态特征融合堆叠方式,捕捉多模态之间的复杂交互关系,具体包括:交叉引导模块由问题引导的图片注意模块和图片引导的问题注意模块组成;通过建立两种不同模式之间的语义关联关系来更新图像区域特征和问题文本特征,以获得更细化的特征;将所述样本图像特征信息和所述样本问题特征信息进行交叉融合特征提,得到携带有样本问题信息的图像特征向量和携带有样本图像信息的样本问题特征向量;

交叉引导注意模块核心也是注意力机制,输入也表示为Q,K,V;以问题引导影像的注意模型为例,将输入图像的自我识别特征 与问题的自我识别特征 映射,得到图像交互注意模型输出以及问题交互注意模型输出;

在得到携带有样本问题信息的图像特征向量和携带有样本图像信息的样本问题特征向量后,将进行一个层数的堆叠,N是注意模型的层数,前一个注意层的输出作为下一个注意层的输入;将多个注意模型层与更深层次的模型连接起来,可以引导注意模型的嵌入,逐步细化待处理的图像和问题特征,增强模型的表征能力。

10.根据权利要求8所述的一种面向医学图像诊断的视觉问答方法,其特征在于,所述设计选取融合方式和分类器,运用到医学问答中,实现面向医学图像诊断的视觉问答研究,具体包括:

在得到有效特征 和 后,送入线性多模态融合网络;然后,将融合后的特征f通过一个sL

形函数映射到向量空间s∈R,其中L为训练集中最频繁答案的个数;

s=Linear(f)

A=sigmoid(s)

A表示模型预测答案。

最后的预测阶段可以看作是预测每个候选答案正确性的逻辑回归;从所有预测的答案中选择概率最高的答案作为最终预测;使用二元交叉熵函数来回归预测;根据真实答案与预测答案确定损失函数的损失值,根据损失值对模型进行更新。

M表示训练问题

N表示候选答案

表示模型输出的预测答案

szk表示模型的真实答案

Z、K分别训练时的值。