利索能及
我要发布
收藏
专利号: 2020104125711
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度神经网络的数据处理方法,其特征在于,包括:

获取至少2个训练样本,所述至少2个训练样本中的每个训练样本为四元组,所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,所述锚点为质量合格的病历数据,所述正样本为与所述锚点类别相同且质量合格的病历数据,所述负样本为与所述锚点类别不相同且质量合格的病历数据,所述假样本为质量不合格的病历数据;

将所述至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后所述DNN模型的损失函数减小至预设波动范围,所述DNN模型的损失函数为四元组损失函数,所述四元组损失函数由所述锚点的特征向量输入所述DNN模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述DNN模型得到的嵌入向量之间的差异确定;所述四元组损失函数为:;

其中,所述L表示所述四元组损失函数,所述a表示所述锚点的特征向量输入所述DNN模型后得到的嵌入向量,所述p表示正样本的特征向量输入所述DNN模型后得到的嵌入向量,所述n表示负样本的特征向量输入所述DNN模型后得到的嵌入向量,所述F表示假样本的特征向量输入所述DNN模型后得到的嵌入向量,所述k为系数,所述d(a,p)表示所述a与所述p之间的距离,所述d(a,n)表示所述a与所述n之间的距离,所述d(a,F)表示所述a与所述F之间的距离;

将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到所述待预测病历数据对应的目标嵌入向量;

将所述至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所述所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;

将所述所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量;

若所述目标嵌入向量与所述质量嵌入向量之间的距离大于或等于预设的质量异常距离,则确定所述待预测病历数据的质量为不合格;

若所述目标嵌入向量与所述质量嵌入向量之间的距离小于所述质量异常距离,则确定所述待预测病历数据的质量为合格。

2.根据权利要求1所述的方法,其特征在于,所述确定所述待预测病历数据的质量为合格之后,所述方法还包括:根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离,确定所述待预测病历数据的类别。

3.根据权利要求2所述的方法,其特征在于,所述根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离,确定所述待预测病历数据的类别,包括:若所述目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于所述类别嵌入向量w对应的类别距离,则确定所述待预测病历数据的类别为第一类别,所述第一类别为所述类别嵌入向量w对应的类别。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

若所述目标嵌入向量与各个类别嵌入向量之间的距离均大于所述各个类别嵌入向量对应的类别距离,则确定所述待预测病历数据的类别为第二类别,所述第二类别与所述各个类别嵌入向量对应的类别均不相同。

5.一种数据处理装置,其特征在于,包括:

获取单元,用于获取至少2个训练样本,所述至少2个训练样本中的每个训练样本为四元组,所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,所述锚点为质量合格的病历数据,所述正样本为与所述锚点类别相同且质量合格的病历数据,所述负样本为与所述锚点类别不相同且质量合格的病历数据,所述假样本为质量不合格的病历数据;

训练单元,用于将所述至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后所述DNN模型的损失函数减小至预设波动范围,所述DNN模型的损失函数为四元组损失函数,所述四元组损失函数由所述锚点的特征向量输入所述DNN模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述DNN模型得到的嵌入向量之间的差异确定;所述四元组损失函数为:;

其中,所述L表示所述四元组损失函数,所述a表示所述锚点的特征向量输入所述DNN模型后得到的嵌入向量,所述p表示正样本的特征向量输入所述DNN模型后得到的嵌入向量,所述n表示负样本的特征向量输入所述DNN模型后得到的嵌入向量,所述F表示假样本的特征向量输入所述DNN模型后得到的嵌入向量,所述k为系数,所述d(a,p)表示所述a与所述p之间的距离,所述d(a,n)表示所述a与所述n之间的距离,所述d(a,F)表示所述a与所述F之间的距离;

处理单元,用于将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到所述待预测病历数据对应的目标嵌入向量;

所述处理单元,还用于将所述至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所述所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;将所述所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量;

第一确定单元,用于当所述目标嵌入向量与所述质量嵌入向量之间的距离大于或等于预设的质量异常距离时,确定所述待预测病历数据的质量为不合格;当所述目标嵌入向量与所述质量嵌入向量之间的距离小于所述质量异常距离时,确定所述待预测病历数据的质量为合格。

6.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1‑4任一项所述的方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1‑4任一项所述的方法。