买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种深海多金属结核单视图三维重建方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种深海多金属结核单视图三维重建方法及系统

￥22200

专利号： 2025105699400

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种深海多金属结核单视图三维重建方法，其特征在于，包括如下步骤：步骤1.对输入的多金属结核图像，使用预训练好的分割大模型SAM对多金属结核图像，进行单个结核分割，将分割出的结核图像保存并用于后续模型训练；

步骤2.使用DreamBooth工具仅通过步骤1中分割出的结核图像对多视图生成模型进行微调，使微调后的模型具有生成多金属结核多视角图像的能力；

其中，对多视图生成模型的微调过程如下：

将多视图生成模型的Unet噪声预测模块迁移至文生图扩散模型架构，以构建混合模型架构，混合模型架构的文本条件输入置为空字符串，以构建无条件约束的微调环境；

将步骤1中分割出的结核图像作为唯一微调数据源，对Unet噪声预测模块进行训练，然后将训练好的Unet噪声预测模块迁移回多视图生成模型；

步骤3.将步骤2中训练好的多视图生成模型，嵌入生成式高斯泼溅中作为2D先验，引导

3D高斯泼溅进行结核的重建，实现多金属结核的三维重建；

所述步骤3中，基于3D高斯模型的结核重建方法具体为：步骤3.1.在预设空间域内对3D高斯初始化，各高斯核素体在预设空间域内服从均匀随机分布，其初始缩放参数设定为单位值且处于零旋转状态；

步骤3.2.通过高斯泼溅的体渲染，渲染出任意视角p下的二维图像P

步骤3.3.将渲染出的二维图像通过图像编码器编码，得到潜在空间中的特征图z；

步骤3.4.向潜在空间中的特征图z中添加t步随机噪声ε，公式如下：其中，表示添加t步噪声后的噪声图，其中αs＝1‑βs，其中βs从线性方差表中提取的值，即：其中T为最大步数；

步骤3.5.通过步骤2微调的Unet噪声预测模块预测加入的t步随机噪声其中 Δp为默认视角单视图与视角差；

步骤3.6.通过分数蒸馏采样损失优化3D高斯Θ，公式表达如下：其中，表示分数蒸馏采样损失，是由多视图生成模型生成的加权函数，表示对随机变量t,p,ε的联合分布求数学期望，Θ表示所有高斯核素体的参数组；

步骤3.7.重复上述步骤3.2‑3.6，随机采样视角P与时间步t，迭代优化；

步骤3.8.根据重建结核的二维渲染图像的像素宽度以及多金属结核图像中的红点间的现实宽度，对重建结核进行缩放，进而获取重建结核的估计体积。

2.根据权利要求1所述的深海多金属结核单视图三维重建方法，其特征在于，所述步骤1具体为：

步骤1.1.使用MAE预训练的ViT模型处理输入的多金属结核图像，并通过1×1卷积和3×3卷积进一步处理，输出空间分辨率为64×64的图像嵌入特征图F'＝Conv3×3(LayerNorm(Conv1×1(Fvit)))；

其中Fvit为ViT输出特征，两次卷积用于降维和特征融合，LayerNorm为层归一化；

步骤1.2.给定图像中单个结核的中心点作为提示，将多金属结核图像中单个结核的中心点的坐标通过预训练的位置编码器转换为点嵌入向量Vp；

步骤1.3.掩码解码采用双Transformer解码器层实现，将步骤1.1中的图像特征F'与步骤1.2中点嵌入向量Vp的深度交互，公式表达如下：F″＝CrossAttn(F′,MLP(CrossAttn(SelfAttn(VP),F′)))；

最终通过动态线性分类器将输出特征F″与权重W逐元素相乘，然后通过sigmoid激活生成掩码，并将导出的分割掩码进行可视化，实现单个结核的分割；

其中，SelfAttn表示自注意力运算，CrossAttn表示交叉注意力运算，MLP表示多层感知机运算，F″表示运算后输出特征；W通过模型预训练得到。

3.根据权利要求1所述的深海多金属结核单视图三维重建方法，其特征在于，所述步骤2具体为：

步骤2.1.对多视图生成模型对视觉条件处理模块、图像编码器和解码器冻结，实施参数冻结策略，阻断外部条件输入的干扰路径；

步骤2.2.将多视图生成模型的核心网络组件Unet噪声预测模块，从多视图生成模型迁移至文生图扩散模型架构，构建混合型生成架构；

步骤2.3.混合型生成架构造完成后，进行混合型生成架构网络训练；将DreamBooth中文本条件输入置为空字符串，图像输入为步骤1分割出的结核图像；

步骤2.4.分割出的结核图像输入后，通过混合型生成架构的VAE编码器实现像素空间与潜在空间的转换，将单个结核图像编码至潜在空间；

空字符串输入后，混合型生成架构中的文本条件编码器对其进行编码；

步骤2.5.向编码后的图像中添加随机噪声ε，混合型生成架构的Unet噪声预测模块在空字符条件编码引导下预测添加的噪声，将预测噪声与实际添加噪声计算损失；

步骤2.6.训练迭代M次后，训练停止，微调完成；

步骤2.7.将微调后的Unet噪声预测模块迁移回原多视图生成模型架构中，此时的多视图生成模型已具备生成分割出的结核图像的能力。

4.根据权利要求3所述的深海多金属结核单视图三维重建方法，其特征在于，所述步骤2中，混合型生成架构的图像编码器、解码器以及文本条件编码器来自文生图扩散模型，混合型生成架构的Unet噪声预测模块来自多视图生成模型；

所述步骤2.5中，损失的计算公式如下：

其中，表示分割出的结核图像，ε表示随机噪声，t为随机噪声步数，zt表示分割出的prior结核图像编码后添加t步噪声后的噪声图，s为条件引导，即空字符串，x 为由混合型生成架构生成的图片，为由混合型生成架构生成的图片编码后添加t步噪声后的噪声图，εφ(zt,t,s)、分别为由混合型生成架构中的Unet噪声预测模块所预测的zt、prior

中的噪声；表示对 ε、t的联合分布进行期望计算，表示对x 、ε、t的联合分布进行期望计算；

通过损失函数的计算，优化混合型生成架构中Unet噪声预测模块的参数。

5.根据权利要求1所述的深海多金属结核单视图三维重建方法，其特征在于，所述步骤3中，利用微调后的多视图生成模型，在输入多金属结核图像以及期望视角与输入图像的相机参数差后，即可生成多金属结核的期望视角图像。

6.根据权利要求1所述的深海多金属结核单视图三维重建方法，其特征在于，所述步骤3中，基于3D高斯模型的结核重建方法中，每个高斯核素体由参数组Θi＝{xi,si,qi,αi,ci}完整表征，其中，元素xi、si、qi、αi、c分别为每个高斯球的位置中心坐标、缩放因子、旋转四元数、不透明度和颜色特征。

7.一种用于实现如权利要求1所述的深海多金属结核单视图三维重建方法的深海多金属结核单视图三维重建系统，其特征在于，所述深海多金属结核单视图三维重建系统包括如下模块：结核分割模块，用于对输入的多金属结核图像，使用预训练好的分割大模型SAM对多金属结核图像，进行单个结核分割，将分割出的结核图像保存并用于后续模型训练；

模型微调模块，用于使用DreamBooth工具仅通过分割出的结核图像对多视图生成模型进行微调，使微调后的模型具有生成多金属结核多视角图像的能力；

其中，对多视图生成模型的微调过程如下：

将多视图生成模型的Unet噪声预测模块迁移至文生图扩散模型架构，以构建混合模型架构，混合模型架构文本条件输入置为空字符串，以构建无条件约束的微调环境；

将分割出的结核图像作为唯一微调数据源，对Unet噪声预测模块进行训练，然后将训练好的Unet噪声预测模块迁移回多视图生成模型；

以及多金属结核单视图三维重建模块，用于将训练好的多视图生成模型，嵌入生成式高斯泼溅中作为2D先验，引导3D高斯泼溅进行结核的重建，实现多金属结核的三维重建。

8.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1至6任一项所述的深海多金属结核单视图三维重建方法的步骤。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现如权利要求1至6任一项所述的深海多金属结核单视图三维重建方法的步骤。