1.一种基于粒度优化特征的宫颈细胞图像半监督分类方法,其特征在于,包括如下步骤:(1)利用有限的标记训练样本和类别隶属模糊方法,得到测试样本的粒度特征;
(2)使用近邻粗糙集方法去除冗余特征,对粒度特征进行优化,以降低样本粒度特征规模;
(3)利用标记样本训练BP神经网络得到基分类器;
(4)从未标记样本数据中不断选取候选样本进行标记,将新标记的候选样本扩充到原始训练样本中对BP网络进行再次训练,重复扩充和再训练过程,直到标记样本数目达到相应标准;
所述步骤(1)中,类别隶属模糊方法的目标是将每个特征刻画成模糊隶属度,利用类别隶属度信息对原始特征进行重构,具体步骤为:(1‑1)设每个样本有n维特征Fi=(Fi1,Fi2,…,Fin),将样本的每一维特征表示成为模糊粒度,得到n×C大小的矩阵:F’i=[μ1(Fi1),μ2(Fi1),…,μc(Fi1),…,μC(Fi1),μ1(Fi2),μ2(Fi2),…,μc(Fi2),…,μC(Fi2),…,μ1(Fin),μ2(Fin),…,μc(Fin),…,μC(Fin)];
其中,C为样本类别数目,c=1,2,…,C,μ1(Fin),μ2(Fin),…,μc(Fin),…,μC(Fin)表示样本的每个维度特征属于不同类别的隶属度;
(1‑2)将每维特征类别的隶属度映射到模糊粒度空间,空间元素为:其中,N是成员函数的模糊度,取值为2,模糊成员函数的中心为r=(p+q)÷2,p和q是交点;
当训练样本更接近类别C时,r的值更接近于1;当样本更接近交点时,值更接近于0.5;
训练样本中心点r=mean(Fn),为第n维特征的平均值;
上述交点的估算公式是:
p=mean(Fn)‑[max(Fn)‑min(Fn)]÷2,q=mean(Fn)+[max(Fn)‑min(Fn)]÷2;
其中,max(Fn)和min(Fn)是第n维特征的最大值和最小值;
极值点的估算公式是:
a=mean(Fn)‑[max(Fn)‑min(Fn)],b=mean(Fn)+[max(Fn)‑min(Fn)];
(1‑3)保存上述训练和测试样本的模糊粒度特征表达形式;
(1‑4)将模糊粒度特征分为条件特征D和决策特征E,条件特征D表示样本的描述性和模式性信息,决策特征E表示分配给条件特征的类别标签。
2.根据权利要求1所述的一种基于粒度优化特征的宫颈细胞图像半监督分类方法,其特征在于,所述步骤(2)的具体步骤为:(2‑1)从空集合开始,逐步选择特征,扩展集合red;
(2‑2)循环开始,对于每个未选中的条件特征集合元素ai进行选择;
(2‑3)循环体内,计算ai依赖因子:(2‑4)循环体内,计算ai特征的重要度Sig(ai,red,D)=γred∪a(D)‑γred(D);
(2‑5)循环结束;
(2‑6)选择重要度Sig最大的特征ak;
(2‑7)如果特征ak重要度Sig大于ε,那么将ak加入red集合并且返回第2步,其中,ε是一个正实数,用来控制收敛性;
(2‑8)如果特征ak重要度Sig小于等于ε,那么输出集合red。
3.根据权利要求1所述的一种基于粒度优化特征的宫颈细胞图像半监督分类方法,其特征在于,所述步骤(3)的具体步骤为:(3‑1)初始化设置,将网络所有系数赋值为最小的随机数;
(3‑2)将训练样本特征值赋值给到输入层神经元,将训练样本标签赋值给输出神经元;
(3‑3)计算实际输出:计算隐层,输出层各神经元的输出;
(3‑4)计算期望值与实际输出的误差,误差函数为 其中,L为网络输出结点数,k为任意神经元,t为目标值,o为实际输出值,p为任意样本;
(3‑5)调整输出层的权重系数wki,任意神经元k在样本p作用时的权重增量公式为:其中,η是学习速率;
(3‑6)调整隐层的加权系数wij,任意神经元i在样本p作用时的权重增量公式为:(3‑7)返回第(3‑3)步,指导误差满足要求为止。
4.根据权利要求1所述的一种基于粒度优化特征的宫颈细胞图像半监督分类方法,其特征在于,所述步骤(4)的具体步骤为:(4‑1)选择同一类别的多个未标记测试样本,分别进行下面计算,达到选取若干候选样本的目的;
(4‑2)计算分类器的混淆矩阵CM;
(4‑3)计算每个类别的DS评分:
c
其中,c为类别数目,取值1,2,...,C,V是CM第c行的协方差, 是到第c行的最大可c能方差,Z是CM的第c行零元素数目;
(4‑4)选择DS分值最低的测试样本;
(4‑5)条件1:标记最高信度测试样本;
(4‑6)条件2:计算选取与训练样本距离最近的测试样本;
(4‑7)在满足条件1的测试样本中,选择满足条件2的测试样本为候选样本;
(4‑8)将候选样本加入到训练样本中。