1.一种针对高维数据的商业信息评估方法,其特征在于:该方法包括以下步骤:S1:对商业信息评估涉及的高维数据进行预处理,分为类别型稀疏特征和数值型稠密特征;
S2:针对类别型稀疏特征和数值型稠密特征,分别建立基于高效通道注意力机制ECA‑Net和场感知因子分解机FFM的类别特征神经网络CatNN,和基于LightGBM作为提升树的梯度提升树转化的神经网络GBDT2NN;
S3:输入类别型稀疏特征到改进的CatNN,计算其输入和损失函数,得到基于类别型稀疏特征的评估结果;
S4:输入数值型稠密特征到改进的GBDT2NN,计算其输入和损失函数,得到基于数值型稠密特征的评估结果;
S5:集成改进的CatNN和GBDT2NN,对集成模型进行训练和参数更新,最终实现高维数据下的商业信息评估;
所述改进的CatNN具体包括以下步骤:
c
S31:输入类别型稀疏特征x 到CatNN部分,CatNN部分是由多个属性特征向量组成的one‑hot编码的向量,包含f个特征域;对于具体的输入,每个特征域是一个具体的特征属性;
S32:对输入的特征向量进行嵌入embedding操作: vij为特征向量 转化过程中和第j个域所对应的embedding权重向量, 为第i个特征域下的特征向量;
设:
EMt=[et1,et2,......,etf]EMt表示第t个特征域经过embedding之后的embedding矩阵,etf为embedding之后的向量,表示第t个特征域下的特征与第f个特征域之间进行交互的embedding向量;f个域经过embedding之后的矩阵为:EM=[EM1,...,EMt,...,EMf]S33:参照残差神经网络Resnet的残差块,结合高效通道注意力模块ECANet以增加通道之间的信息交互,提高网络的准确率;在这个过程中,etf经过1×1的卷积操作,将每个向量压缩为一个一维的值,Utf表示对向量etf进行卷积操作的卷积权值:ztf=conv1d(Utf,etf)=Relu(Utf,etf)用DVt=[zt1,zt2,...ztf]表示经过1×1卷积之后的第t个特征域对应的向量;连接f个域的DV向量用D表示;
D=concate(DV1,DV2,...,DVt,...,DVf)S34:在得到D之后,结合ECANet结构,对D进行卷积核大小为m,步长为1的一维卷积运算,m由以下公式确定:其中,N表示D的维度,γ和b为超参数,用于计算卷积维度,|x|odd表示x的最接近奇数,在D的首尾添加(m‑1)/2个0;
S35:用S表示卷积的结果:
S=σ(Cov1Dm(D))
S的维度与D的维度一致;将S与EM相乘,完成在通道维度上对原始特征的重标定:AEMt=Fscale(St,EMt)=[St1·et1,St2·et2,...,Stf·etf]用AEM表示重标定之后的EM矩阵:
AEM=[AEM1,...,AEMt,...,AEMf]S36:在Feature Interaction层,对向量两两进行交互,采用哈达玛积的交互方式;
两个向量的哈达玛积结果是一个向量,ai,j为k维向量;将两个向量进行连接:将得到的值进行标准化处理使网络的输入更加稳定,然后将数据输入到深度神经网络中;
S37:基于前馈的神经网络来负责高阶的特征交互,正向过程为:l l l‑1 l
x=σ(wx +b)
l
l为层的深度,σ为激活函数,x为第l隐层的输出;
S38:加上线性部分,整个CatNN部分的输出为:所述改进的GBDT2NN具体包括以下步骤:
g
S41:输入数值型稠密特征x到GBDT2NN部分,首先是对LightGBM模型进行训练,在梯度提升树实现LightGBM模型中目标函数如下:其中 代表的是之前t‑1棵树的输出,gi、hi分别代表的是损失函数的一阶导数与二阶导数,Ω(ft)代表正则项;
S42:对特征进行互斥特征捆绑EFB,将互斥的特征打包到一个单一的特征包;通过当前前t棵树的预测值与真实值做一个损失,得到每个样本的损失函数的值及损失函数的一阶导数gi和二阶导数hi;
S43:首先对数据集进行单边梯度采样;然后从深度为0的树开始,对叶子结点进行分割,直到达到最大深度,通过最大化Lsprit;
来计算当前结点的最佳分割点,其中IL和IR是分割后左右树节点的实例空间,λ和γ为超参数;分割后相应的叶子结点j的权重为:S44:得到第t+1棵树,将这棵树添加到前t棵树的集合中Ft+1(x);下次计算损失就是计算前t+1棵树的预测之和与真实值之间的误差:其中Ft+1(x)为这t+1次迭代得到的总模型,重复以上操作直到模型收敛;
S45:对梯度提升树中的多棵决策树进行分组,每组决策树用一个神经网络来拟合,设有k棵树,均分成m个树组;遍历单个树组Μ中每棵决策树,得到第i个样本对应的每棵树的t,i叶子结点的索引向量,然后使用拼接操作||()将其拼接起来;L 表示决策树t中第i个样本的叶子结点的索引向量;
Μ,i t,i Τ
S46:利用嵌入层来学习叶子结点的嵌入表示G =H(||t∈Μ(L );ω ),H()表示将拼t,i Μ,i Τ t,i接起来的multi‑hot向量||t∈T(L )映射成嵌入embedding表示G ;使用w H(||t∈Μ(L );
Τ
ω )+w0去拟合第i个样本所在树组Μ中的决策树叶子结点的权重之和 损失函数L″使用与LightGBM中相同的损失函数;学习多棵树的叶子结点嵌入的过程表示为:i Μ
S47:进行输入特征的筛选,只使用样本x 梯度提升树中的分裂中所使用的特征I 作为Μ,i输入的特征,设置输出的维度与G 的维度一致;
i Μ Μ i Μ Μ
S48:得到N(x [I ];θ ),N(x[I ];θ )用来拟合嵌入层得到的第i个样本的嵌入表示GΜ,i Μ,i;N()表示多层的神经网络的输出;通过神经网络的输出值和叶子节点的嵌入表示G 来计算树组Μ的嵌入损失Lembedding:i Μ Μ Μ,i
Lembedding=L(N(x[I ];θ ),G )Τ
S49:利用之前使用嵌入表示来拟合多个叶子节点的权重之和时,学习到的权重w 与偏置w0,得到当前树组Μ转换的神经网络的输出yΜ(x),Τ i Μ Μ
yΜ(x)=w ×N(x[I ];θ )+w0将m个树组都转换成相应神经网络后,GBDT2NN部分的总输出为:所述S5具体包括以下步骤:
S51:得到CatNN和GBDT2NN两个部分的预测值之后进行加权相加的操作,从而获得模型总的输出值:其中w1和w2为可训练参数,通过训练过程进行更新;
S52:得到输出值 之后计算出预测损失Lpredict,结合模型GBDT2NN部分的嵌入损失Lembedding,得到全局损失Lmodel;
Lmodel=α×Lpredict+β×Lembedding其中的α和β为给定的超参数;
w
S53:根据Lmodel计算w1和w2的梯度信息Δ ,分别对两个参数w1和w2进行更新;
w
S54:根据CatNN部分的输出值yCatNN(x)与Δ 来计算CatNN部分神经网络最后一层,即第wL层的梯度信息 根据GBDT2NN部分的输出值yGBDT2NN(x)与Δ 来计算GBDT2NN部分神经网络第L层的梯度信息L
S55:根据神经网络第L层的输出值O以及之前得到的梯度信息来计算L‑1层的梯度信息L‑1Δ ,并更新L‑1层的参数信息;迭代此步骤,从第L‑1层,到第L‑2层,一直到第1层,依次计算每层的梯度信息,更新每层的参数,反向传播结束,以更新CatNN和GBDT2NN两部分的神经网络,当满足设置的迭代轮次或损失值小于特定值时,模型训练完成。
2.根据权利要求1所述的一种针对高维数据的商业信息评估方法,其特征在于:所述S1具体包括以下步骤:S11:获取进行商业信息评估任务的数据源,该数据源来源于银行内部不同系统,银行外部各个机构、渠道;数据源涵盖多个维度,包括银行流水、存款信息、用户收入、贷款信息、还款情况和违约次数的数值型特征,以及用户性别、职业、历史银行卡等级、用户学历和用户征信的等级类别型特征;
S12:为消除数据缺失问题对后期计算的影响,首先计算数据项的缺失值比例,设置一个阈值μ,当缺失值比例小于阈值μ时采用合适的方式对缺失的数据进行填充;
S13:对其中的类别型特征进行one‑hot编码,对数值型特征进行线性判别分析LDA降维。
3.根据权利要求2所述的一种针对高维数据的商业信息评估方法,其特征在于:所述集成模型为:在商业信息评估任务中,针对稀疏类别特征、稠密数值特征两种不同特点的特征处理,将模型划分为CatNN和GBDT2NN两部分;在CatNN部分,引入场注意力机制下深度域感知因子分解机FAT‑DeepFFM模型的思想,并采用高效通道注意力模块ECA‑Net对其进行改进;在GBDT2NN部分,选择LightGBM作为梯度提升树。
4.一种计算机系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1‑3任一项所述的方法。
5.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1‑3任一项所述的方法。