利索能及
我要发布
收藏
专利号: 202310277474X
申请人: 浙江工商大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-24
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多视图颌姿态估计的正畸治疗监测方法,其特征在于,包括以下步骤:S1,获取当前阶段患者的RGB口腔扫描视频;

S2,基于所述口腔扫描视频训练牙齿视频实例分割模型,得到视频中每个牙齿的实例分割掩码;

S3,采用多视图颌姿态估计方法推断每帧的颌姿态,包括以下子步骤:

S3.1,基于固定牙齿的多视图颌6D姿态估计,具体为:针对具有固定牙齿的帧,根据ZebraPose算法预测得到固定牙齿的初始6D姿态,根据不同帧中相同固定牙齿的姿态得到相机相对姿态,通过固定牙齿的相邻牙齿判断相机相对姿态的合理性,采用合理的相机相对姿态基于bundle adjustment损失更新固定牙齿姿态;

S3.2,双向颌6D姿态跟踪,具体为:将不包含固定牙齿的帧作为待跟踪的目标帧,利用与其前后最近邻的包含固定牙齿的帧的视觉特征,通过双向循环神经网络来估计目标帧中的颌姿态;

S4,利用基于迭代的方法估计每个正畸牙齿在正畸治疗过程中的相对位姿变化,在每次迭代过程中最小化正畸前的正畸牙齿3D模型的投影与正畸后的正畸牙齿前景图像的像素匹配损失;具体为:将S3得到的第 帧中的颌姿态作为第 帧中正畸牙齿 的初始姿态 ,输入到姿态更新模块中,通过不断比较正畸前的正畸牙齿3D模型的投影与正畸后的正畸牙齿前景图像来更新正畸牙齿在正畸治疗过程中的姿态变化;

对于正畸前的3D颌模型 ,首先通过3D实例分割算法得到正畸牙齿3D模型;在第 次迭代中,正畸前正畸牙齿 的投影图像 是通过使用正畸牙齿3D模型 和第 次迭代中估计的6D姿态 得到的;观测图像 是通过实例分割提取正畸牙齿 区域得到的;

将投影图像 和观测图像 输入到姿态更新模块中,预测得到正畸牙齿 在第 次迭代中的相对姿态变化 。

2.根据权利要求1所述的方法,其特征在于,所述牙齿视频实例分割模型的输入为视频中提取的长度为 的帧集合 , ,将这些帧通过骨干网络进行特征提取,得到每帧的特征图 ;然后将这些特征图使用添加了位置编码PE的transformer编码器进行编码;接下来将帧查询输入到transformer解码器中,获得实例查询,然后将实例查询通过实例传播模块得到预测的实例框和实例类别,再结合transformer编码器编码通过反卷积和上采样层得到的像素级的语义信息,得到牙齿实例分割掩码。

3.根据权利要求2所述的方法,其特征在于,所述实例传播模块包括两个分支:实例框预测分支和实例类别预测分支;所述实例传播模块的输入中,假设第 帧的第 个实例查询为 ,通过初始化 的查询权值传播到第 帧;

(1)实例框预测分支:每个实例的实例框通过学习帧间位置和尺度的偏移量来进行帧间传播,第 帧的第 个实例框 通过如下公式得到:其中, 是sigmoid函数, 是需要学习的权重矩阵;在视频的第1帧中,实例框 通过实例查询 的映射函数得到,即 ;

(2)实例类别预测分支:由于实例在不同帧中的外观不一致,实例的类别概率分布会发生变化,第 个实例在第 帧的类别向量 为:其中, 是sigmoid函数, 和 是需要学习的权重矩阵, 是存储帧的索引,对于第 帧,其存储帧为第 帧到第 帧, 是预设的存储帧数, 为拼接函数。

4.根据权利要求1所述的方法,其特征在于,所述牙齿视频实例分割模型中设计时间一致性损失 ;出现在不同帧中的相同实例构成一个正集,而出现在不同帧中的不同实例构成一个负集,时间一致性损失 计算公式如下:其中, 是预设的存储帧数, 是存储帧的索引, 是实例对应的类别向量最高概率值高于设定阈值的实例数,是衰减系数。

5.根据权利要求4所述的方法,其特征在于,所述牙齿视频实例分割模型中,总损失函数是实例分类损失 、实例框损失 、语义分割损失 ,以及时间一致性损失 的线性组合,公式如下:其中, , , 是用于平衡不同约束的系数。

6.根据权利要求1所述的方法,其特征在于,所述基于固定牙齿的多视图颌6D姿态估计具体为:将视频中每一帧实例分割得到的牙齿前景区域 作为输入,其中 是帧的索引,根据ZebraPose算法预测得到第 帧中固定牙齿 的初始6D姿态 ;

假设第 帧和第 帧中均包含固定牙齿 ,将 作为相机相对姿态,通过以

下方式评估相机相对姿态的合理性:

令 作为与固定牙齿 相邻的牙齿的索引,并且这些牙齿在相同的帧中同时出现,和 之间的距离度量如下:其中, 是牙齿 的表面点云集合;

将计算的距离 与预设阈值 进行比较,如果 则判定相机相对姿态合理可用于后续损失函数的计算,否则不合理进行舍弃;

固定牙齿 的姿态 通过bundle adjustment损失函数进行恢复,公式如下:其中, 是固定牙齿 的表面点云集合, 是通过实例分割提取的第 帧中固定牙齿 的前景区域, 是相机内参矩阵。

7.根据权利要求1所述的方法,其特征在于,所述双向颌6D姿态跟踪具体为:对于不包含固定牙齿的帧,通过姿态跟踪的方式估计颌骨姿态,并且跟踪的起始帧需包含固定牙齿以获取跟踪过程中颌骨初始姿态;

假设输入的视频包含的帧为 ,其中 ,和 是帧的索引;使用骨干网络对这些帧进行特征提取,得到视觉特征 ;假设第 帧和第 帧中的颌姿态 和是通过使用固定牙齿得到的;将第 帧的视觉特征 和第 帧的隐向量 输入前向ConvLSTM层,估计出第 帧的前向隐向量 和前向输出向量 ;将前向输出向量 和第帧的后向隐向量 输入后向ConvLSTM层,估计出第 帧的后向隐向量 和后向输出向量;将后向输出向量 经过线性映射层估计得到第 帧的颌姿态 ;第一帧中的前向隐向量 以及最后一帧中的后向隐向量 分别通过线性映射层得到;

在训练阶段,优化的是颌6D姿态空间中的L1范数损失函数 ,假设第 帧中的真实颌

6D姿态是 ,有:

为了增强跨帧间预测姿态的平滑性,添加一个正则化损失项 :

总的损失函数 是上述两项的线性组合:

其中, 是用于控制平滑程度的组合权重。

8.根据权利要求1所述的方法,其特征在于,步骤S4中,所用损失函数为像素匹配损失,用于惩罚投影图像和观测图像之间的差异:其中, 是相机内参矩阵, 是正畸牙齿3D模型 上的3D点 的颜色值, 是观测图像 上和3D点 相对应的像素颜色值;像素匹配损失用于寻找第 次迭代中投影图像和观测图像 之间的相对姿态变化 。

9.一种基于多视图颌姿态估计的正畸治疗监测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1‑8中任一项所述的基于多视图颌姿态估计的正畸治疗监测方法。

10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1‑8中任一项所述的基于多视图颌姿态估计的正畸治疗监测方法。