利索能及
我要发布
收藏
专利号: 2020101275986
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种选取样本图像的方法,其特征在于,包括:

获取未标注图像集合和已标注图像集合,所述未标注图像集合包含多张未标注的样本图像,所述已标注图像集合包含多张已标注的样本图像;

以所述已标注图像集合作为训练集,训练得到一个图像分类模型;

采用所述图像分类模型分别对所述未标注图像集合中的每个未标注的样本图像进行分类,得到每个所述未标注的样本图像的分类结果;

对于每个所述未标注的样本图像,根据各自的分类结果分别计算得到各自的不确定性指标和代表性指标,并结合各自的不确定性指标和代表性指标确定各自的标注价值,所述不确定性指标用于衡量样本的图像分类结果的不确定度,所述代表性指标用于衡量样本可作为所述未标注图像集合的代表性样本的概率大小;

从各个所述未标注的样本图像中选取并输出标注价值最高的样本图像。

2.如权利要求1所述的选取样本图像的方法,其特征在于,所述未标注图像集合中任意的一个未标注的目标样本图像的不确定性指标通过以下公式计算:f(x,L,u)=-∑y∈Ypθ(y|x)*log(pθ(y|x))其中,f(x,L,u)表示所述目标样本图像x的不确定性指标,L表示所述已标注图像集合的样本,u表示所述未标注图像集合的样本,pθ(y|x)表示所述目标样本图像x属于标签y的概率,Y为预先构建的标签类别集合。

3.如权利要求2所述的选取样本图像的方法,其特征在于,所述目标样本图像的代表性指标通过以下公式计算:其中,Rep(x)表示所述目标样本图像x的代表性指标,n表示所述未标注图像集合的样本图像的数量,sim(x,xi)表示所述目标样本图像x和所述未标注图像集合中的一个样本图像xi之间的相似度,假设所述目标样本图像x的属性空间表示为x={x1,x2,...,xj,...,xm},所述样本图像xi的属性空间表示为 则sim(x,xi)的具体表达式为:

所述目标样本图像的标注价值Value(x)通过以下公式计算:Value(x)=f(x,L,u)*Rep(x)。

4.如权利要求1所述的选取样本图像的方法,其特征在于,所述未标注图像集合中任意的一个未标注的目标样本图像的不确定性指标通过以下步骤确定:计算所述目标样本图像的信息熵指标;

根据所述目标样本图像的分类结果统计所述目标样本图像经分类得到的标签数量;

结合所述信息熵指标和所述标签数量计算得到所述目标样本图像的不确定性指标。

5.如权利要求4所述的选取样本图像的方法,其特征在于,所述目标样本图像的信息熵指标通过以下公式计算:Ent(x,L,u)=-∑y∈Ypθ(y|x)*log(y|x)其中,Ent(x,L,u)表示所述目标样本图像x的信息熵指标,L表示所述已标注图像集合的样本,u表示所述未标注图像集合的样本,pθ(y|x)表示所述目标样本图像x属于标签y的概率,Y为预先构建的标签类别集合;

所述目标样本图像的不确定性指标通过以下公式计算:

f(x,L,u)=Ent(x,L,u)*Mul(x)a

其中,f(x,L,u)表示所述目标样本图像x的不确定性指标,Mul(x)表示所述标签数量,a为调节比重的参数。

6.如权利要求5所述的选取样本图像的方法,其特征在于,所述目标样本图像的代表性指标通过以下核密度估算公式计算:所述目标样本图像的标注价值Value(x)通过以下公式计算:Value(x)=f(x,L,u)*Repβ(x);

其中,Rep(x)表示所述目标样本图像x的代表性指标,n表示所述未标注图像集合的样本图像的数量,h为核密度估算的带宽,所述未标注图像集合的样本图像表示为{x1,x2,...,xi,...,xn},K(*)为预设的权函数,β为调节比重的参数。

7.如权利要求1至6中任一项所述的选取样本图像的方法,其特征在于,在从各个所述未标注的样本图像中选取并输出标注价值最高的样本图像之后,还包括:将人工标注后的所述标注价值最高的样本图像从所述未标注图像集合转移到所述已标注图像集合中,对所述已标注图像集合进行更新;

以更新后的所述已标注图像集合作为训练集,对所述图像分类模型进行优化更新;

若所述图像分类模型优化更新的次数达到设定的迭代次数,或者所述图像分类模型的精确度达到设定的阈值,则将当前的所述图像分类模型确定为最终的图像分类模型。

8.一种选取样本图像的装置,其特征在于,包括:

图像集合获取模块,用于获取未标注图像集合和已标注图像集合,所述未标注图像集合包含多张未标注的样本图像,所述已标注图像集合包含多张已标注的样本图像;

分类模型训练模块,用于以所述已标注图像集合作为训练集,训练得到一个图像分类模型;

样本图像分类模块,用于采用所述图像分类模型分别对所述未标注图像集合中的每个未标注的样本图像进行分类,得到每个所述未标注的样本图像的分类结果;

样本标注价值确定模块,用于对于每个所述未标注的样本图像,根据各自的分类结果分别计算得到各自的不确定性指标和代表性指标,并结合各自的不确定性指标和代表性指标确定各自的标注价值,所述不确定性指标用于衡量样本的图像分类结果的不确定度,所述代表性指标用于衡量样本可作为所述未标注图像集合的代表性样本的概率大小;

样本图像选取模块,用于从各个所述未标注的样本图像中选取并输出标注价值最高的样本图像。

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的选取样本图像的方法。

10.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的选取样本图像的方法。