利索能及
我要发布
收藏
专利号: 2019109930297
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于迁移学习的模型建立方法,其特征在于,包括:

获取经过数据预处理的第一研究数据和第二研究数据,将所述第一研究数据和所述第二研究数据合并成目标多中心研究数据,所述第一研究数据包括各中心或各机构对目标疾病患者与非目标疾病患者的检测数据,所述第二研究数据包括各中心或各机构对目标疾病的实验室研究数据,所述检测数据包括的就诊数据和体检数据,所述就诊数据包括个人基本信息和既往病史;

分析所述目标多中心研究数据得到第一数据集和第二数据集,所述第一数据集用于指示标记的目标多中心研究数据,所述第二数据集用于指示未标记的目标多中心研究数据;

通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据,获得特征空间维数;

根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习,获得降维数据;

通过预置的分类算法和所述降维数据训练初始模型;

调用预置公式计算所述初始模型的检测综合值,并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模型,所述目标模型用于对所述个人基本信息、所述既往病史和所述体检数据进行处理分析,所述预置公式如下:,

其中,所述F‑score表示为所述检测综合值,所述β表示为特定目标多中心研究数据的场景参数,所述P表示为所述初始模型的准确率,所述R表示为所述初始模型的召回率。

2.根据权利要求1所述的方法,其特征在于,所述通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据,获得特征空间维数,包括:对所述目标多中心研究数据进行特征提取,得到特征信息,所述特征信息包括所述实验室研究数据对应的指标范围与指标属性和所述指标对应的目标多中心研究数据;

通过预置的基于阈值化双边岭比准则TDRR算法,获取所述特征信息的特征空间维数,其中,所述特征空间维数的获取公式如下:,

其中,所述Sj为比率,所述λ为所述特征信息,j=1,2,3......p,所述q为所述特征空间维数,所述c1n为脊线,所述c2n为脊线,所述α为阈值,0<α<1。

3.根据权利要求1所述的方法,其特征在于,所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习,获得降维数据,包括:计算所述第一数据集和所述第二数据集的最大均值差异,并根据所述最大均值差异获取核矩阵,其中,所述最大均值差异的计算公式如下:,

所述核矩阵的计算公式如下:

, , ,

其中,所述X1表示所述第一数据集的特征矩阵,所述X2表示所述第二数据集的特征矩阵,所述n1表示所述第一数据集的数据的数量,所述n2表示所述第二数据集的数据的数量,所述x1表示所述第一数据集,所述x2表示所述第二数据集,所述 表示特征映射核函数,所述K表示所述核矩阵,所述L表示编码所述第一数据集和所述第二数据集的矩阵;

根据所述核矩阵对所述第一数据集和所述第二数据集进行分析,得到更新后的第一数据集和第二数据集;

通过预置的学习分类器对更新后的第一数据集和第二数据集进行回归处理和预测处理,得到第一预测标签信息;

当检测到所述更新后的第一数据集和第二数据集映射到所述特征空间维数对应的特征空间中时,调用预置的调和函数根据所述第一预测标签信息对所述更新后的第一数据集和第二数据集进行处理,得到降维数据。

4.根据权利要求1所述的方法,其特征在于,所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习,获得降维数据之后,所述通过预置的分类算法和所述降维数据训练初始模型之前,所述方法还包括:对所述第一数据集和所述第二数据集进行特征提取,得到目标特征信息;

对所述目标特征信息中的各特征向量进行敏感度分析,获得关联指数,其中,所述关联指数包括与所述检测数据相关的危险因素的影响程度;

根据所述关联指数对所述目标特征信息中的属性进行优先级顺序的设置和标记,其中,所述优先级顺序包括按照从高到低排序的第一优先级、第二优先级、第三优先级、第四优先级和第五优先级。

5.根据权利要求4所述的方法,其特征在于,所述通过预置的分类算法和所述降维数据训练初始模型,包括:将标记所述第一优先级对应的属性作为父节点,将标记所述第二优先级、所述第三优先级、所述第四优先级和所述第五优先级的属性分别作为第一子节点、第二子节点、第三子节点和第四子节点;

将预设测试条件作为连接边,根据所述节点、所述第一子节点、所述第二子节点、所述第三子节点、所述第四子节点和所述节点创建预测决策树,其中,所述预设测试条件用于指示各中心或各机构对应的指标定义范围;

通过所述预测决策树对所述目标特征信息进行递归调用处理,以对初始模型进行训练。

6.根据权利要求4所述的方法,其特征在于,所述目标特征信息中的属性进行优先级顺序的设置和标记,包括:根据预设提取规则获取所述目标特征信息的属性;

计算所述属性的增益比率值,其中,所述属性的增益比率值的计算公式如下:,

其中,所述m表示所述目标特征信息D中维度C的个数,所述Pi表示所述目标特征信息中任意一个维度对应的特征信息属于Ci的概率,所述G(R)表示属性R给分类带来的信息量,所述k表示属性R中不同的取值的个数,所述Pj表示所述目标特征信息中任意一个维度对应的特征信息属于Rj的概率;

比较所述增益比率值的大小,并按照所述增益比率值从大到小的顺序设置并标记所述属性的优先级。

7.根据权利要求1‑6中任一项所述的基于迁移学习的模型建立方法,其特征在于,所述通过预置的分类算法和所述降维数据训练初始模型,包括:通过预置的分类算法对所述降维数据进行回归处理,得到预处理结果,并计算所述预处理结果的错误率,所述错误率的计算公式如下:,

所述m表示所述降维数据的数据的个数,所述xi表示所述降维数据,所述 表示所述降维数据的权重向量,所述Et表示所述错误率,所述h(t xi)表示所述预置的分类算法;

当所述错误率大于第二预设阈值时,更新所述初始模型中各数据的权重,完成对初始模型的训练;

当所述错误率小于或等于第二预设阈值时,获取所述初始模型中各数据的权重的调整速率;

若所述调整速率为预设范围值,则完成对初始模型的训练。

8.一种用于基于迁移学习的模型建立装置,其特征在于,所述装置包括:收发模块,用于接收经过数据预处理的第一研究数据和第二研究数据;

处理模块,用于将所述收发模块接收的经过数据预处理的所述第一研究数据和所述第二研究数据合并成目标多中心研究数据,所述第一研究数据包括各中心或各机构对目标疾病患者与非目标疾病患者的检测数据,所述第二研究数据包括各中心或各机构对目标疾病的实验室研究数据,所述检测数据包括的就诊数据和体检数据,所述就诊数据包括个人基本信息和既往病史;分析所述目标多中心研究数据得到第一数据集和第二数据集,所述第一数据集用于指示标记的目标多中心研究数据,所述第二数据集用于指示未标记的目标多中心研究数据;通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据,获得特征空间维数;根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习,获得降维数据;通过预置的分类算法和所述降维数据训练初始模型;调用预置公式计算所述初始模型的检测综合值,并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模型,所述目标模型用于对所述个人基本信息、所述既往病史和所述体检数据进行处理分析,所述预置公式如下: ,其中,所述F‑score表示为所述检测综合值,所述β表示为特定目标多中心研究数据的场景参数,所述P表示为所述初始模型的准确率,所述R表示为所述初始模型的召回率。

9.一种计算机设备,其特征在于,所述计算机设备包括:

至少一个处理器、存储器和收发器;

其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1‑7中任一项所述的方法。

10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1‑7中任一项所述的方法。