利索能及
我要发布
收藏
专利号: 2025106263757
申请人: 石家庄铁道大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于,所述方法包括如下步骤:步骤1:构建参考视频对象分割数据集的语义提示信息和视频帧信息;

步骤2:对参考视频对象分割数据集进行预处理;

步骤3:建立基于语义一致性与运动感知的参考视频对象分割模型:设计双分支解耦策略用于在语义和视觉层面对特征信息进行解耦,从而提取文本描述与视觉特征的静态和运动信息;

设计感知动态融合机制用于将文本信息嵌入到视觉特征空间,使视觉特征能够获取文本语义信息,从而增强模型的跨模态理解能力;

设计分层运动感知模块用于捕捉并对齐不同帧间的运动信息,解析短期和长期运动信息,从而使模型获得对长期运动模式的感知能力;

设计语义一致性模块用于对齐语义描述与视频特征,从而提高目标选择的正确率和掩码的完整性,避免负样本误检;

所述语义一致性模块包括文本重建和语义一致性计算两个核心步骤,利用模型提取的目标特征反向生成文本描述,并计算其与原始描述的相似度,进而对齐文本与视频特征;

所述文本重建过程为:抽取运动解码阶段的中间输出特征重建文本信息,并与原始句级文本信息组合;

所述语义一致性计算过程为:通过循环一致性约束计算组合文本信息的相似度,进而通过计算得到的相似度约束来增强语义描述与视频特征的对齐;

所述循环一致性约束由结构一致性约束和距离一致性约束组成;

所述结构一致性约束通过衡量嵌入空间中样本点之间的夹角一致性,确保嵌入空间的局部结构不发生变形,即语义表达的相对关系不会改变;

所述距离一致性约束通过衡量原始空间和重构空间中样本对之间的距离,确保同一目标的不同表达在重构空间中相对靠近,而不同目标的表达相对远离;

步骤4:构建损失函数,更新模型参数,设置训练参数,进行训练,得到最佳权重;

步骤5:基于最佳权重来检测测试集图像,得到最终分割结果。

2.根据权利要求1所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述双分支解耦策略包括语义解耦处理单元与视觉解耦处理单元;

所述语义解耦处理单元通过文本编码器对输入的文本描述 进行文本特征提取,生成句级特征 和词级特征 ;然后,语义解耦处理单元通过词嵌入工具对文本描述 进行词性解析,识别文本描述中的名词、形容词和介词,作为静态词特征 ,识别文本描述中的动词和副词,作为运动词特征 ;接着,语义解耦处理单元通过静态词特征 和运动词特征 生成静态查询 和运动查询 ;

所述视觉解耦处理单元通过视觉编码器对输入的视频序列 进行视频特征提取,得到视频帧级特征 ;然后,以 作为查询从增强后的视频帧级特征 中生成目标特征 及其对应的掩码 ;接着,采用跨注意力机制将静态词特征 注入到可学习的静态查询 中,以生成更具目标感知能力的查询表示 ;最后,将静态查询 与动态查询 进行跨模态交互,得到混合查询 进而替代 在分割掩码生成阶段,进行查询向量指导。

3.根据权利要求1所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述分层运动感知模块由候选目标匹配部分和运动特征聚合部分组成;

所述运动特征聚合部分包括短期运动感知模块、长期运动感知模块、前馈融合网络三个主要组件。

4.根据权利要求3所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述候选目标匹配部分的输入为:目标特征标记集合 ,其中目标特征标记集合为通过掩码生成器对每一视频帧生成的 个维度为 的向量;

所述候选目标匹配部分的流程为:在第一帧认为候选目标即为最优匹配目标,在第二帧至其余帧,通过匈牙利算法计算相邻帧之间的目标匹配相似度,进而筛选最优匹配目标;

所述短期运动感知模块主要关注候选目标在相邻帧之间的细粒度运动信息,通过计算相邻目标帧之间的轻微运动信息获取,并将短期运动感知模块输出结果输入至长期运动感知模块;

所述长期运动感知模块通过时间自注意力机制计算目标特征在时间轴上的注意力分布,并通过计算运动词特征 与前一层级 目标轨迹的相似性,突出包含目标运动的视频帧;

所述分层运动感知模块的输出 作为后续模块进行目标选择的键和值。

5.根据权利要求1所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述感知动态融合机制的输入为句级特征 、词级特征 以及视觉特征 ,通过多头交叉注意力机制计算文本与视频特征之间的注意力,使视觉信号获得文本信息的引导,得到增强后的特征 。

6.根据权利要求2所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述视觉编码器采用Swin Transformer,文本编码器采用RoBERTa。

7.根据权利要求1所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述预处理为视频帧在处理前统一裁剪为640×360像素分辨率。

8.根据权利要求1所述的一种基于语义一致性与运动感知的参考视频对象分割方法,其特征在于:所述损失函数包括逐帧匹配损失、视频级损失和文本重构损失,训练过程中采用逐帧匹配损失 和视频级损失 ,并结合文本重构损失 ,以优化模型的整体表现;

总体损失函数定义如下:

其中,文本重构损失使用交叉熵损失和语义一致性损失结合的方法,对文本重建质量进行优化, 表示交叉熵损失,计算原始文本 与重构文本之间的匹配度, 表示语义相似度损失,用于保持文本嵌入空间中的结构一致性, 和 分别表示超参数。