利索能及
我要发布
收藏
专利号: 2020100839623
申请人: 青岛联合创智科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图像分析的菜品识别分类方法,其特征在于,包括如下步骤:(1)利用摄像机对盛有不同菜品的餐盘进行图像拍摄;

(2)对图像中的不同菜品进行检测分割,得到不同菜品的分割框;

(3)对菜品的分割框进行边界定位;

(4)菜品特征识别模型的训练与推断,得到菜品特征图像;

(5)建立菜品特征分类网络,将菜品特征图像输入菜品特征分类网络进行菜品的分类,并将新菜品添加到数据库中。

2.根据权利要求1所述的一种基于图像分析的菜品识别分类方法,其特征在于,所述步骤(2)具体如下:设餐盘中的菜品数量为a,对给定的菜品目标o,用φ(υo)∈R2×d×1×1来表示菜品目标特征集合,其中,υo表示菜品目标的特征,d代表维度,2代表图像的背景和前景;

1×d×h×w

将整幅图像的像素特征集合表示为ψ(U)∈R ,其中,U表示像素的特征,d代表维度,h和w代表图像ψ(U)的高度和宽度;

将图像中表示前景的像素拉向特征空间中对应表示的某一菜品的类别,实现菜品的分割,相关操作定义如下:Mo=soft max(Ψ(U)*φ(υo))  (1)其中,*表示卷积操作,相似映射图Mo∈R2×1×h×w,Mo中包含两个通道概率,分别代表菜品目标o中每个像素的前景概率和背景概率。

3.根据权利要求2所述的一种基于图像分析的菜品识别分类方法,其特征在于,所述步骤(3)具体如下:将检测到的菜品分割框坐标看作一个离散的随机变量,菜品边界位置是边界所在坐标概率的自变量点集argmax,即:其中,X是分割框边界水平坐标的离散随机变量,M′∈Rh×w代表公式(1)中Mo的前景通道概率,i表示边界上的点,P(X=i|M′)表示M′的后验概率;

以左边界的推导为例;

根据贝叶斯定理,可以得到:

其中,P(X=i)和P(M′|X=i)分别代表先验概率和似然概率;

假设某一菜品的分割框仅与M′中每一行的最大值有关,仅影响它的邻域像素,似然概率定义为:其中, s是超参数,描述菜品边界对其相邻像素的影响范围,理想情况下,边界上的像素只影响其最近的两个像素,边界框外的像素概率为0,边界内的像素概率为1;

对P(X=i)采用离散高斯分布:

其中,α代表归一化系数,μ表示高斯分布的均值,σx表示分布的方差,边界位置的分布与对象分割实例尺寸有关,设置为:μ=xr,σx=γ·wb,其中,wb表示边界框的宽度,xr表示左边界的横坐标,γ表示回归边界的权重;

将公式(4)和公式(5)代入公式(3)中,得到P(X=i|M′),再将其代入公式(2)得到菜品的左边界,然后用同样的方法得到菜品的其它边界。

4.根据权利要求3所述的一种基于图像分析的菜品识别分类方法,其特征在于,所述步骤(4)具体如下:菜品特征识别模型是通过以下多任务损失函数进行训练的:

L=λrLreg+λmLmask  (6)

其中,Lreg采用均方误差MSE作为回归损失函数;

其中,s∈{±1},表示像素点是否属于边界内,若像素点在边界框内,s=1;p∈[0,1]表示当s=1时菜品识别的概率;

其中,L表示总的损失函数,Lreg表示对象回归检测器损失函数,Lmask表示像素方向交叉熵损失,与实际标注的边界框相匹配的边界框输入相关操作模块生成菜品对象的实例掩模,从扩展的实际标注的边界框裁剪得到的掩模用来计算Lmask;λr和λm代表损失函数Lreg和Lmask权重的系数;

在推断时,首先根据获得的目标边界框和像素实例掩模,然后经过非极大值抑制处理之后的边界框经公式(1)相关的卷积操作,之后用目标检测器获得的扩展框裁剪实例分割的掩码,为了获得准确的边界框,得到的实例分割掩码上采样得到与输入图像相同的尺寸w×h,然后输入到实例掩码的边界细化模块中,最后采用阈值为0.4大小进行二值化处理,得到菜品特征图像。

5.根据权利要求1所述的一种基于图像分析的菜品识别分类方法,其特征在于,所述步骤(5)中,菜品特征分类网络采用神经架构搜索NAS的方法,具体实现方法如下:NASNet架构递归神经网络RNN作为控制器生成神经网络模型。

6.根据权利要求5所述的一种基于图像分析的菜品识别分类方法,其特征在于,控制器RNN从搜索空间S={hidden_layer,select_operate,select_comb}中以概率p预测网络结构A的单元模块,通过学习单元得到准确性奖励R,最终将梯度p*R传递给RNN控制器进行梯度更新,当满足控制器RNN的目标函数J(θc)最大化时,终止学习,可选组合;

J(θc)=Ep(a1:T;θc)[R]  (8)

其中,a1:T作为控制器RNN预测出的网络结构A的单元模块,p为a1:T被选中的概率,θc为控制器的权重数组,初始化为0,当RNN收敛时,单元a1:T会获得最终的准确性奖励R。

7.根据权利要求1所述的一种基于图像分析的菜品识别分类方法,其特征在于,得到菜品分类网络后,新菜品自添加步骤为:(a)将采集到的拟添加菜品多张图片添加到菜品库;

(b)根据设定的训练步长,步长不大于5000,调整菜品分类网络参数;

(c)完成菜品分类网络调整后,将添加菜品图像作为网络的输入进行识别测试,经过3~5次多角度测试后,最终得到菜品识别结果即为添加菜品名称,说明添加成功,如果识别不理想,将失败测试图像添加到菜品库中进一步调整网络,完成菜品自添加和识别功能。