买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种针对高维数据的商业信息评估方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种针对高维数据的商业信息评估方法及系统

￥42000

专利号： 2022103479417

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种针对高维数据的商业信息评估方法，其特征在于：该方法包括以下步骤：S1：对商业信息评估涉及的高维数据进行预处理，分为类别型稀疏特征和数值型稠密特征；

S2：针对类别型稀疏特征和数值型稠密特征，分别建立基于高效通道注意力机制ECA‑Net和场感知因子分解机FFM的类别特征神经网络CatNN，和基于LightGBM作为提升树的梯度提升树转化的神经网络GBDT2NN；

S3：输入类别型稀疏特征到改进的CatNN，计算其输入和损失函数，得到基于类别型稀疏特征的评估结果；

S4：输入数值型稠密特征到改进的GBDT2NN，计算其输入和损失函数，得到基于数值型稠密特征的评估结果；

S5：集成改进的CatNN和GBDT2NN，对集成模型进行训练和参数更新，最终实现高维数据下的商业信息评估；

所述改进的CatNN具体包括以下步骤：

S31：输入类别型稀疏特征x 到CatNN部分，CatNN部分是由多个属性特征向量组成的one‑hot编码的向量，包含f个特征域；对于具体的输入，每个特征域是一个具体的特征属性；

S32：对输入的特征向量进行嵌入embedding操作： vij为特征向量转化过程中和第j个域所对应的embedding权重向量，为第i个特征域下的特征向量；

设：

EMt＝[et1,et2,......,etf]EMt表示第t个特征域经过embedding之后的embedding矩阵，etf为embedding之后的向量，表示第t个特征域下的特征与第f个特征域之间进行交互的embedding向量；f个域经过embedding之后的矩阵为：EM＝[EM1,...,EMt,...,EMf]S33：参照残差神经网络Resnet的残差块，结合高效通道注意力模块ECANet以增加通道之间的信息交互，提高网络的准确率；在这个过程中，etf经过1×1的卷积操作，将每个向量压缩为一个一维的值，Utf表示对向量etf进行卷积操作的卷积权值：ztf＝conv1d(Utf,etf)＝Relu(Utf,etf)用DVt＝[zt1,zt2,...ztf]表示经过1×1卷积之后的第t个特征域对应的向量；连接f个域的DV向量用D表示；

D＝concate(DV1,DV2,...,DVt,...,DVf)S34：在得到D之后，结合ECANet结构，对D进行卷积核大小为m，步长为1的一维卷积运算，m由以下公式确定：其中，N表示D的维度，γ和b为超参数，用于计算卷积维度，|x|odd表示x的最接近奇数，在D的首尾添加(m‑1)/2个0；

S35：用S表示卷积的结果：

S＝σ(Cov1Dm(D))

S的维度与D的维度一致；将S与EM相乘，完成在通道维度上对原始特征的重标定：AEMt＝Fscale(St,EMt)＝[St1·et1,St2·et2,...,Stf·etf]用AEM表示重标定之后的EM矩阵：

AEM＝[AEM1,...,AEMt,...,AEMf]S36：在Feature Interaction层，对向量两两进行交互，采用哈达玛积的交互方式；

两个向量的哈达玛积结果是一个向量，ai,j为k维向量；将两个向量进行连接：将得到的值进行标准化处理使网络的输入更加稳定，然后将数据输入到深度神经网络中；

S37：基于前馈的神经网络来负责高阶的特征交互，正向过程为：l l l‑1 l

x＝σ(wx +b)

l为层的深度，σ为激活函数，x为第l隐层的输出；

S38：加上线性部分，整个CatNN部分的输出为：所述改进的GBDT2NN具体包括以下步骤：

S41：输入数值型稠密特征x到GBDT2NN部分，首先是对LightGBM模型进行训练，在梯度提升树实现LightGBM模型中目标函数如下：其中代表的是之前t‑1棵树的输出，gi、hi分别代表的是损失函数的一阶导数与二阶导数，Ω(ft)代表正则项；

S42：对特征进行互斥特征捆绑EFB，将互斥的特征打包到一个单一的特征包；通过当前前t棵树的预测值与真实值做一个损失，得到每个样本的损失函数的值及损失函数的一阶导数gi和二阶导数hi；

S43：首先对数据集进行单边梯度采样；然后从深度为0的树开始，对叶子结点进行分割，直到达到最大深度，通过最大化Lsprit；

来计算当前结点的最佳分割点，其中IL和IR是分割后左右树节点的实例空间，λ和γ为超参数；分割后相应的叶子结点j的权重为：S44：得到第t+1棵树，将这棵树添加到前t棵树的集合中Ft+1(x)；下次计算损失就是计算前t+1棵树的预测之和与真实值之间的误差：其中Ft+1(x)为这t+1次迭代得到的总模型，重复以上操作直到模型收敛；

S45：对梯度提升树中的多棵决策树进行分组，每组决策树用一个神经网络来拟合，设有k棵树，均分成m个树组；遍历单个树组Μ中每棵决策树，得到第i个样本对应的每棵树的t,i叶子结点的索引向量，然后使用拼接操作||()将其拼接起来；L 表示决策树t中第i个样本的叶子结点的索引向量；

Μ,i t,i Τ

S46：利用嵌入层来学习叶子结点的嵌入表示G ＝H(||t∈Μ(L )；ω )，H()表示将拼t,i Μ,i Τ t,i接起来的multi‑hot向量||t∈T(L )映射成嵌入embedding表示G ；使用w H(||t∈Μ(L )；

ω )+w0去拟合第i个样本所在树组Μ中的决策树叶子结点的权重之和损失函数L″使用与LightGBM中相同的损失函数；学习多棵树的叶子结点嵌入的过程表示为：i Μ

S47：进行输入特征的筛选，只使用样本x 梯度提升树中的分裂中所使用的特征I 作为Μ,i输入的特征，设置输出的维度与G 的维度一致；

i Μ Μ i Μ Μ

S48：得到N(x [I ]；θ )，N(x[I ]；θ )用来拟合嵌入层得到的第i个样本的嵌入表示GΜ,i Μ,i；N()表示多层的神经网络的输出；通过神经网络的输出值和叶子节点的嵌入表示G 来计算树组Μ的嵌入损失Lembedding：i Μ Μ Μ,i

Lembedding＝L(N(x[I ]；θ ),G )Τ

S49：利用之前使用嵌入表示来拟合多个叶子节点的权重之和时，学习到的权重w 与偏置w0，得到当前树组Μ转换的神经网络的输出yΜ(x)，Τ i Μ Μ

yΜ(x)＝w ×N(x[I ]；θ )+w0将m个树组都转换成相应神经网络后，GBDT2NN部分的总输出为：所述S5具体包括以下步骤：

S51：得到CatNN和GBDT2NN两个部分的预测值之后进行加权相加的操作，从而获得模型总的输出值：其中w1和w2为可训练参数，通过训练过程进行更新；

S52：得到输出值之后计算出预测损失Lpredict，结合模型GBDT2NN部分的嵌入损失Lembedding，得到全局损失Lmodel；

Lmodel＝α×Lpredict+β×Lembedding其中的α和β为给定的超参数；

S53：根据Lmodel计算w1和w2的梯度信息Δ ，分别对两个参数w1和w2进行更新；

S54：根据CatNN部分的输出值yCatNN(x)与Δ 来计算CatNN部分神经网络最后一层，即第wL层的梯度信息根据GBDT2NN部分的输出值yGBDT2NN(x)与Δ 来计算GBDT2NN部分神经网络第L层的梯度信息L

S55：根据神经网络第L层的输出值O以及之前得到的梯度信息来计算L‑1层的梯度信息L‑1Δ ，并更新L‑1层的参数信息；迭代此步骤，从第L‑1层，到第L‑2层，一直到第1层，依次计算每层的梯度信息，更新每层的参数，反向传播结束，以更新CatNN和GBDT2NN两部分的神经网络，当满足设置的迭代轮次或损失值小于特定值时，模型训练完成。

2.根据权利要求1所述的一种针对高维数据的商业信息评估方法，其特征在于：所述S1具体包括以下步骤：S11：获取进行商业信息评估任务的数据源，该数据源来源于银行内部不同系统，银行外部各个机构、渠道；数据源涵盖多个维度，包括银行流水、存款信息、用户收入、贷款信息、还款情况和违约次数的数值型特征，以及用户性别、职业、历史银行卡等级、用户学历和用户征信的等级类别型特征；

S12：为消除数据缺失问题对后期计算的影响，首先计算数据项的缺失值比例，设置一个阈值μ，当缺失值比例小于阈值μ时采用合适的方式对缺失的数据进行填充；

S13：对其中的类别型特征进行one‑hot编码，对数值型特征进行线性判别分析LDA降维。

3.根据权利要求2所述的一种针对高维数据的商业信息评估方法，其特征在于：所述集成模型为：在商业信息评估任务中，针对稀疏类别特征、稠密数值特征两种不同特点的特征处理，将模型划分为CatNN和GBDT2NN两部分；在CatNN部分，引入场注意力机制下深度域感知因子分解机FAT‑DeepFFM模型的思想，并采用高效通道注意力模块ECA‑Net对其进行改进；在GBDT2NN部分，选择LightGBM作为梯度提升树。

4.一种计算机系统，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1‑3任一项所述的方法。

5.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1‑3任一项所述的方法。