利索能及
我要发布
收藏
专利号: 2021108497239
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于由下述步骤组成:

(1)构建视频描述网络模型

在Pytorch框架下,构建使用编码器‑解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型;

所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支(1)、双线性自适应特征交互模块(2)、门控循环单元(3)、语义特征提取分支(4)、视频目标感知特征提取分支(5)、视频静态特征提取分支(6)、视频动态特征提取分支(7)组成,视频动态特征提取分支(7)、视频静态特征提取分支(6)、视频目标感知特征提取分支(5)、词嵌入特征提取分支(1)的输出与双线性自适应特征交互模块(2)的输入相连,语义特征提取分支(4)和双线性自适应特征交互模块(2)的输出与门控循环单元(3)的输入相连,门控循环单元(3)构成解码器,门控循环单元(3)输出视频描述文字;

(2)训练视频描述网络模型

(a)设置网络的超级参数

从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,

670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,视频描述网络模型共训练45~50轮;

(b)训练视频描述网络模型

将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数L,损失函数L为交叉熵损失:

其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度, 为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数;

使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45~50轮,训练结束,得到训练好的视频描述网络;

(3)检测测试集视频

将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。

2.根据权利要求1所述的基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于在(1)构建视频描述网络模型步骤中,所述的视频目标感知特征提取分支(5)的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center‑ness热力图采用八连通域检测法,检测Center‑ness热力图中所激活的连通区域,并将激活的连通区域中小于

3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征Object

fk :

其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作;

将视频V中各单帧目标特征按下式得到视频目标感知特征

3.根据权利要求1所述的基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于在(1)构建视频描述网络模型步骤中,所述的双线性自适应特征交互模块2的构建方法为:以全局特征 视频目标感知特征 词嵌入特征 作为输入特征,其中全局特征 由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征 交互特征 交互特征‑12 ‑8

其中Sign(·)为符号函数,ε取值为10 ~10 ;

将交互特征 交互特征 交互特征 按下式得到各交互特征的权重其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;

将交互特征 交互特征 交互特征 和其对应权重 按下式得到最终的融合特征

其中Concat(·)表示从通道维进行特征拼接操作。