利索能及
我要发布
收藏
专利号: 2019100915817
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于结构化数据的半监督学习的方法,其特征在于,构建适用于结构化数据的Embedding GAN模型结构,对原始数据X进行预处理(包含缺失值填补、类别特征数值化处理等),将处理过的原始数据X的特征集划分成类别型特征子集xCT和数值型特征子集xNL两部分;模型判别器D(x;θd)(x为输入样本,θd为判别器的模型参数,包括图中Embedding layer的参数)的原始输入为{xl,xu,xg},其中xl,xu分别是有标记和无标记数据样本,xg为生成器生成的样本,将类别特征xCT输入Embedding layer(一种可以将输入数值转换成对应多维向量的神经网络结构),得到对应的稠密嵌入向量E(xCT),然后与数值型特征子集xNL组合得到拥有新特征集的样本E(xCT)+xNL,并且应用Batch Normalization(BN)(神经网络的训练使用的是分批训练方式,所以该技术是对每个批次的样本进行特征数值归一化处理)技术得到归一化的包含新特征集的样,最后将归一化的新样本输入判别器进行训练,而生成样本xg直接作为判别器的输入;生成器G(z;θg)(z为输入噪声,θg为生成器的模型参数),由三层全连接网络组成并且每一层的输出都应用了BN去防止神经网络训练时可能出现的梯度弥散;将符合概率分布pz(z)的噪声作为输入,让生成样本xg的概率分布pG去拟合之前处理得到的新样本 的概率分布,最终通过多层感知机学习一个输入噪声z到真实样本产生的数据E(xCT)+xNL的映射,最后输出一个接近真实样本分布的生成样本xg。

2.一种如权利要求1所述的方法,其特征在于,将真实样本经过Embedding layer重新组合成了具有新特征的样本E(xCT)+xNL,生成器匹配E(xCT)+xNL的统计特征,在Embedding GAN中,生成器的损失函数为:其中G表示生成器模型的函数表达式,f是判别器D中间层输出统计特性的函数表达式,即为处理后的真实样本E(xCT)+xNL的统计特性输出期望,为输入噪声经过生成器G产生生成样本然后输入函数f得到的统计特性期

望,最终希望生成生成样本的统计特性期望接近真实样本的统计特性期望,所以是通过优化生成器的参数θg最小化这个损失函数。

3.一种如权利要求2所述的方法,其特征在于,在最优的条件下为了保证强的真假置信度,在目标函数中增加了条件熵这一项 新的判别器目标函数为:其中可以分为监督学习项 无监督学习项 和新增加的条件熵项

其中, 表示判别器D的输入有标记数据xl和对应类标签yl

时,输出前K类每一类的置信度(或者说概率)与真实标签y1的交叉熵的期望值;

表示判别器D的输入为无标签真实样本xu时,输出的前K类(表示

真实样本的类别,真实样本可能存在K种不同类别)的置信度之和与其真实标签y≤K的交叉熵期望; 表示判别器D的输入为生成样本xg时,模型输出K+1类的置信度与真实标签y=K+1(K+1类为生成样本的类别标签)的交叉熵期望;

即为条件熵项的期望,表示输入为无标记样本xu时,计

算输出的K个类别对应的置信度的信息熵;

新的生成器和判别器目标函数组合能训练得到一个互补生成器(complement generator)帮助判别器找到正确的分类决策边界,在每一次模型迭代中,通过生成器的目标函数更新它的模型参数一次或者两次,同时更新判别器的参数一次去优化判别器目标函数。