利索能及
我要发布
收藏
专利号: 2022116231496
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于事实场景的可解释性视觉问答模型构建方法,其特征在于,方法步骤包括:获取第一数据集与第二数据集,所述第一数据集为图像‑文本对数据集,所述第二数据集为视觉问答数据集;

构建视觉问答模型,并通过所述第一数据集对所述视觉问答模型进行预训练,获得图像特征提取网络与文本特征提取网络;

采用权重反向传播方法对所述图像特征提取网络进行处理,获得图像反事实样本;

所述图像反事实样本获得的子步骤包括:

采用权重反向传播WBP方法对所述图像特征提取网络进行处理,获得因果显著性图;

结合L1范数,将所述因果显著性图中的像素点值近似替换为0,获得所述图像反事实样本;

采用开源机器学习库对所述文本特征提取网络进行处理,获得文本反事实样本;

所述文本反事实样本子步骤包括:

采用开源机器学习库SHAP对所述文本特征提取网络进行处理,获得与图像相关联的问题文本中每个单词重要性评分;

结合L1范数,将评分最高的单词同意替换为MASK,获得所述文本反事实样本;

引入图像与文本的对抗性半事实样本,并结合所述图像反事实样本以及所述文本反事实样本对所述视觉问答模型进行迭代更新,获得视觉问答预测模型;

提取所述第二数据集中的特征数据,通过所述特征数据对所述视觉问答预测模型进行验证,获得可解释性视觉问答模型。

2.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法,其特征在于,所述图像特征提取网络与所述文本特征提取网络获得的子步骤包括:在所述视觉问答模型中,通过ResNet50网络对所述第一数据集中的图像特征进行提取,获得图像特征;

通过GloVe模型将问题文本词进行嵌入,在将嵌入后的模型输入到1024D的LSTM网络中,获得文本特征;

将所述图像特征与所述文本特征均进通过双线性注意网络进行处理,获得图像特征提取网络以及文本特征提取网络。

3.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法,其特征在于,所述预训练具体为:在所述视觉问答模型的梯度计算阶段,通过采用余弦相似度对对称损失函数进行优化。

4.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法,其特征在于,所述视觉问答预测模型获得的子步骤包括:通过原始样本的损失函数、正样本损失函数、反事实样本损失函数以及L1范数对网络层参数求导并沿梯度反向传播使得损失函数值最小,对相关参数不断的进行迭代更新,获得视觉问答预测模型。

5.根据权利要求1 4任一所述的基于事实场景的可解释性视觉问答模型构建方法,其~特征在于,在所述图像‑文本对数据集中,图像‑文本数据为一张图像与其对应相关的问题与答案所构成的数据,所述图像‑文本数据集是为若干图像‑文本数据构成的集合。

6.基于事实场景的可解释性视觉问答模型构建系统,其特征在于,包括数据获取模块、预训练模块、第一处理模块、第二处理模块、迭代更新模块以及验证模块;

所述数据获取模块,用于获取第一数据集与第二数据集,所述第一数据集为图像‑文本对数据集,所述第二数据集为视觉问答数据集;

所述预训练模块,用于构建视觉问答模型,并通过所述第一数据集对所述视觉问答模型进行预训练,获得图像特征提取网络与文本特征提取网络;

所述第一处理模块,用于采用权重反向传播方法对所述图像特征提取网络进行处理,获得图像反事实样本;

所述图像反事实样本获得的子步骤包括:

采用权重反向传播WBP方法对所述图像特征提取网络进行处理,获得因果显著性图;

结合L1范数,将所述因果显著性图中的像素点值近似替换为0,获得所述图像反事实样本;

所述第二处理模块,用于采用开源机器学习库对所述文本特征提取网络进行处理,获得文本反事实样本;

所述文本反事实样本子步骤包括:

采用开源机器学习库SHAP对所述文本特征提取网络进行处理,获得与图像相关联的问题文本中每个单词重要性评分;

结合L1范数,将评分最高的单词同意替换为MASK,获得所述文本反事实样本;所述迭代更新模块,用于引入图像与文本的对抗性半事实样本,并结合所述图像反事实样本以及所述文本反事实样本对所述视觉问答模型进行迭代更新,获得视觉问答预测模型;

所述验证模块,用于提取所述第二数据集中的特征数据,通过所述特征数据对所述视觉问答预测模型进行验证,获得可解释性视觉问答模型。

7.根据权利要求6所述的基于事实场景的可解释性视觉问答模型构建系统,其特征在于,所述预训练模块包括图像特征提取模块、文本特征提取模块以及网络处理模块,所述图像特征提取模块,用于在所述视觉问答模型中,通过ResNet50网络对所述第一数据集中的图像特征进行提取,获得图像特征;

所述文本特征提取模块,用于通过GloVe模型将问题文本词进行嵌入,在将嵌入后的模型输入到1024D的LSTM网络中,获得文本特征;

所述网络处理模块,用于将所述图像特征与所述文本特征均进通过双线性注意网络进行处理,获得图像特征提取网络以及文本特征提取网络。

8.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1 5任一所述的方法。

~