利索能及
我要发布
收藏
专利号: 2022102205513
申请人: 萍乡市萍宣再生资源有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于,包括以下步骤:

1)对跨模态超声图像文本数据集进行预处理,利用分词工具对医学文本进行分词,然后通过词袋模型训练词向量,将标签信息转化为one‑hot向量,跨模态医学数据集中的每一例样本包括超声图像文本对及其对应的one‑hot向量;

2)设置一模型,该模型包括图像特征提取网络、文本特征提取网络、语义特征提取网络、跨模态注意力模块、标签预测层、损失函数;

跨模态注意力模块的输出为:Hi(v)=(1+Mi(v))v′,Hi(t)=(1+Mi(t))·t′,Hi(s)=(1+Mi(s))·s′,其中v′,t′,s′分别表示特征提取网络提取的中间层图像、文本和语义特征,Mi(v)、Mi(t)、Mi(s)代表跨模态注意力模块中学习到的特征权重,Hi(v)、Hi(t)、Hi(s)分别代表恒等映射后的图像、文本和语义特征;

3)模型训练:利用特征提取网络,提取图像特征、文本特征和语义特征;将图像文本对以及代表语义标签的one‑hot向量分别输入对应的特征提取网络,得到中间层的图像特征、文本特征和语义特征;将中间层的特征输入到跨模态注意力层,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,最终的特征向量输出到一个公共的特征空间;将得到的图像特征和文本特征分别同语义特征计算对比中心损失;将各模态的特征输入参数共享的标签预测层,生成预测标签后,分别与真实标签计算标签预测损失;利用特征空间中的对比中心损失和标签空间中的标签预测损失更新模型参数;当模型参数收敛时,保存最优的模型;

计算语义特征中心μj,然后计算跨模态对比中心损失L1,将各模态的特征输入标签预测v t s层,得到预测标签Y 、Y、Y ,然后同真实标签向量Y计算标签预测损失L2,结合L1和L2,同时在标签空间和语义空间添加约束,得到目标函数为:L=L1+αL2,α为超参数;

所述跨模态对比中心损失L1计算公式如下:

其中 表示第j个类别的语义特征中心,uz表示第z个类别的语义特征

中心,vi、ti分别表示低维公共特征空间中的图像特征表示和文本特征表示,nb表示小批量中的训练样本数,c表示语义类别的数量,yij=1表示第i个图像文本对属于第j个语义类别,δ是用来防止分母等于0的常数,vi,ti,si,分别表示第i个图像特征、文本特征和语义特征;

所述标签预测损失L2的计算公式如下:

v t s

其中Y,Y和Y分别表示标签预测层输出的预测标签矩阵,Y=[y1,y2,...,ynb]表示真实标签矩阵;

4)利用步骤3)中训练好的模型,将数据集中的图像和文本数据映射为低维特征向量;

5)对于查询数据,首先按照步骤4)生成低维特征向量,然后计算该低维特征向量与其它模态数据的特征向量之间的欧式距离作为相似度,按相似度进行排序,返回满足条件的跨模态实例。

2.根据权利要求1所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:所述步骤1)具体包括,跨模态超声图像文本数据的每个实例样本包含一个图像‑文本对以及所对应的语义标签,对文本数据进行分词处理后得到的具有唯一性的词中,保留出现频率5次以上的词,构成词典,并进行词向量训练,得到词向量;每个图像‑文本实例都被分配了一个语义标签,将其转化为one‑hot向量 其中c是类别数, 表示向量维度,如果第i个实例属于第j个类别,yij=1,否则yij=0,每个图像文本实例可以属于单个语义类别或多个语义类别。

3.根据权利要求1所述基于胎儿先心病超声图像—诊断报告的跨模态检索方法,其特征在于:步骤2)中所述图像特征提取网络由卷积神经网络构成,通过卷积、池化、激活函数、全连接层,原始图像被输出为图像特征向量;

所述文本特征提取网络,先通过预先构建的词典将文本转换为向量形式,向量中的每一个数字对应一个300维的词向量,通过词向量嵌入,将代表文本的向量转换为p×300的矩阵,其中p为文本的长度,然后将矩阵输入卷积神经网络,得到文本特征向量;

所述语义特征提取网络,由全连接层和激活函数构成,代表语义标签的one‑hot向量被输出为和图像或文本特征维度相同的语义特征向量;

所述跨模态注意力模块,由全连接层和Sigmoid激活函数构成,将之前得到的特征输入到跨模态注意力模块,通过全连接层和Sigmoid激活函数学习到特征权重后各模态特征相乘,得到各模态的注意力特征,然后作恒等映射之后将各模态特征输入一个参数共享的全连接层,输出最终的特征向量到一个公共的特征空间;

所述标签预测层,由全连接层构成,将图像特征、文本特征和语义特征映射为和标签向量相同维度的向量;

所述损失函数,包括特征空间中的对比中心损失,标签空间中的标签预测损失。

4.一种计算机可读存储介质,其存储有计算机程序,其特征在于:所述计算机程序被执行时,可实现权利要求1‑3任一项所述的基于胎儿先心病超声图像—诊断报告的跨模态检索方法。