利索能及
我要发布
收藏
专利号: 201910011828X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据标准化方法,其特征在于,所述方法包括:获取体检报告中待标准化的一项数据;

确定该项数据的具体值所对应的数据类型;

根据所确定的数据类型对该项数据进行标准化处理,其中,不同数据类型所对应的标准化处理的方式不同。

2.根据权利要求1所述的方法,其特征在于,所述数据类型包括数值型、枚举型、简单混合型、复杂混合型,所述确定该项数据的具体值所对应的数据类型,包括:获取该项数据的具体值并对所获取的该项数据的具体值进行检测;

若该项数据的具体值为数字,或者为数字和单位的组合,那么确定该项数据的具体值所对应的数据类型为数值型;

若该项数据的具体值为预设的枚举数值中的一种,那么确定该项数据的具体值所对应的数据类型为枚举型;

若该项数据的具体值既包括有文字,又包括有数字,判断文字的字数是否未超过第一预设数量且数字出现的次数是否未超过第二预设数量;

若该项数据的具体值中的文字的字数未超过第一预设数量且数字出现的次数未超过第二预设数量,确定该项数据的具体值所对应的数据类型为简单混合型;否则,确定该项数据的具体值所对应的数据类型为复杂混合型。

3.根据权利要求1所述的方法,其特征在于,所述数据类型包括数值型、枚举型、简单混合型、复杂混合型,所述根据所确定的数据类型对该项数据进行标准化处理,包括:若该项数据的具体值所对应的数据类型为数值型,对体检报告中该项数据的具体值进行处理,以统一该项数据的数据单位;

若该项数据的具体值所对应的数据类型为枚举型,将该项数据具体值中的文字进行统一,或者将该项数据的具体值与预先设置的数值进行匹配映射;

若该项数据的具体值所对应的数据类型为简单混合型,则采用正则表达式匹配的方式进行标准化;

若该项数据的的具体值所对应的数据类型为复杂混合型,则采用自然语言处理的方法来进行标准化。

4.根据权利要求3所述的方法,其特征在于,所述若该项数据的具体值所对应的数据类型为简单混合型,则采用正则表达式匹配的方式进行标准化,包括:根据该项数据的数据项,获取该项数据的具体值所对应的预设正则表达式;

判断预设正则表达式与该项数据的具体值是否匹配;

若预设正则表达式与该项数据的具体值匹配,判断该项数据的具体值中是否有符号和数字;

若该项数据的具体值中有符号和数字,则按照预设格式提取该项数据的具体值所对应的特征,以得到标准化结果;

若该项数据的具体值中没有符号却有数字,则提取出该项数据的具体值中的数字,将提取出的数字作为标准化结果。

5.根据权利要求3所述的方法,其特征在于,所述若该项数据的的具体值所对应的数据类型为复杂混合型,则采用自然语言处理的方法来进行标准化,包括:调用递归分组接口,对该项数据的具体值所对应的文本进行断句分组;

判断断句分组后的文本的数据类型是否属于数值型或者枚举型或者简单混合型;

若断句分组后的文本的数据类型属于数值型或者枚举型或者简单混合型,则使用数值型或者枚举型或者简单混合型对应的标准化处理方式进行标准化处理;

若断句分组后的文本的数据类型不属于数值型或者枚举型或者简单混合型,调用分词和词性标注接口,对断句分组后的文本进行分词以及词性标注,并进行分析,以得到第一结果;

调用关键字提取算法,对断句分组后的短句进行统计,以得出候选关键词出现的第一频率以及候选关键词在该项数据所在的多份体检报告文档中出现的第二频率,根据所述第一频率与所述第二频率从所述候选关键词中提取出该项数据具体值中的一组关键词,将提取出的关键词作为第二结果;

将所述第一结果和所述第二结果作为该项数据具体值所对应的标准化结果。

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取预先设置的该项数据的具体值所对应的特征和特征标识;

将该项数据具体值所对应的标准化结果与预先设置的特征进行匹配以得到匹配结果;

根据匹配结果,利用对应的特征标识对所述标准化结果进行标记。

7.根据权利要求5所述的方法,其特征在于,在所述调用分词和词性标注接口,对断句分组后的文本进行分词以及词性标注,并进行分析,以得到第一结果之前,所述方法还包括:检测断句分组后的文本中是否存在有数字;

若存在有数字,执行调用分词和词性标注接口,对断句分组后的文本进行分词以及词性标注,并进行分析,以得到第一结果的步骤。

8.一种数据标准化装置,其特征在于,所述数据标准化装置包括:获取单元,用于获取体检报告中待标准化的一项数据;

类型确定单元,用于确定该项数据的具体值所对应的数据类型;

标准化单元,用于根据所确定的数据类型对该项数据进行标准化处理,其中,不同数据类型所对应的标准化处理的方式不同。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器,以及与所述存储器相连的处理器;

所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7任一项所述的方法。