利索能及
我要发布
收藏
专利号: 2020110959937
申请人: 北京工业大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-04-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多粒度特征融合的疾病预测系统,其特征在于,包括:

获取模块,用于获取基于待预测疾病的融合特征;

处理模块,用于将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的;

所述疾病预测模型,通过以下步骤获得:

获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本;

将所述预处理后的文本进行特征抽取,获得提取特征;

将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征;

获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型;

所述将所述预处理后的文本进行特征抽取,获得提取特征,具体包括:

通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征;

所述通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征,具体包括:将所述预处理后的文本映射到领域本体得到文本数据,通过最大匹配法将所述文本数据切分为语义集,采用word2vec模型将包含能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,并通过所述概念自身特征型和所述概念类型特征相结合提取概念特征;

采用所述word2vec模型将包含不能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,提取词特征;

结合所述词特征、位置特征以及否定词特征提取概念之间的关系触发词,并结合所述概念特征,将所述概念特征和所述关系触发词表示为概念关系特征,所述概念关系特征表示为三元组形式,记作pi=(ei,ri,eo),其中ei和eo表示概念特征,ri表示概念之间的关系触发词,有{s1…si…sn}∈D,其中D为文本数据,si由为m个语义组成si={w1…pi…qo…wm},其中{w1…wm}是句子si中的词特征,每个词相对于概念特征ei和eo之间都有两个相对距离,记作 否定词特征记作{n1…nm}∈w,w表示词特征集合,概念之间的关系触发词可以通过公式表示为 将所述概念特征进一步表示为包含数值类型的疾病与时间结果,以及包含所述数值类型和类别类型的检测与检查结果,得到属性与值特征;

所述获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型,具体包括:根据所述概念关系特征和所述属性与值特征的不同将句子分割成不同部分提取所述句子包含的语义信息;

将所述语义信息与所述概念特征和所述词特征进行融合训练所述并行自适应卷积神经网络模型,并在卷积层采用dropout操作,以及采用zero padding保持所述句子的有效性,得到所述疾病预测模型。

2.根据权利要求1所述的基于多粒度特征融合的疾病预测系统,其特征在于,所述获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本,具体包括:将医疗文本数据根据待预测的目标类别进行人工标注,再载入领域本体,得到所述待处理的文本;

根据标点符号、数字和空格符号将所述待处理的文本切分为汉字字符串,并去除停用词,得到所述预处理后的文本。

3.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如下步骤:获取基于待预测疾病的融合特征;

将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的;

所述疾病预测模型,通过以下步骤获得:

获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本;

将所述预处理后的文本进行特征抽取,获得提取特征;

将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征;

获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型;

所述将所述预处理后的文本进行特征抽取,获得提取特征,具体包括:

通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征;

所述通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征,具体包括:将所述预处理后的文本映射到领域本体得到文本数据,通过最大匹配法将所述文本数据切分为语义集,采用word2vec模型将包含能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,并通过所述概念自身特征型和所述概念类型特征相结合提取概念特征;

采用所述word2vec模型将包含不能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,提取词特征;

结合所述词特征、位置特征以及否定词特征提取概念之间的关系触发词,并结合所述概念特征,将所述概念特征和所述关系触发词表示为概念关系特征,所述概念关系特征表示为三元组形式,记作pi=(ei,ri,eo),其中ei和eo表示概念特征,ri表示概念之间的关系触发词,有{s1…si…sn}∈D,其中D为文本数据,si由为m个语义组成si={w1…pi…qo…wm},其中{w1…wm}是句子si中的词特征,每个词相对于概念特征ei和eo之间都有两个相对距离,记作 否定词特征记作{n1…nm}∈w,w表示词特征集合,概念之间的关系触发词可以通过公式表示为将所述概念特征进一步表示为包含数值类型的疾病与时间结果,以及包含所述数值类型和类别类型的检测与检查结果,得到属性与值特征;

所述获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型,具体包括:根据所述概念关系特征和所述属性与值特征的不同将句子分割成不同部分提取所述句子包含的语义信息;

将所述语义信息与所述概念特征和所述词特征进行融合训练所述并行自适应卷积神经网络模型,并在卷积层采用dropout操作,以及采用zero padding保持所述句子的有效性,得到所述疾病预测模型。

4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如下步骤:获取基于待预测疾病的融合特征;

将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的;

所述疾病预测模型,通过以下步骤获得:

获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本;

将所述预处理后的文本进行特征抽取,获得提取特征;

将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征;

获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型;

所述将所述预处理后的文本进行特征抽取,获得提取特征,具体包括:

通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征;

所述通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征,具体包括:将所述预处理后的文本映射到领域本体得到文本数据,通过最大匹配法将所述文本数据切分为语义集,采用word2vec模型将包含能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,并通过所述概念自身特征型和所述概念类型特征相结合提取概念特征;

采用所述word2vec模型将包含不能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,提取词特征;

结合所述词特征、位置特征以及否定词特征提取概念之间的关系触发词,并结合所述概念特征,将所述概念特征和所述关系触发词表示为概念关系特征,所述概念关系特征表示为三元组形式,记作pi=(ei,ri,eo),其中ei和eo表示概念特征,ri表示概念之间的关系触发词,有{s1…si…sn}∈D,其中D为文本数据,si由为m个语义组成si={w1…pi…qo…wm},其中{w1…wm}是句子si中的词特征,每个词相对于概念特征ei和eo之间都有两个相对距离,记作 否定词特征记作{n1…nm}∈w,w表示词特征集合,概念之间的关系触发词可以通过公式表示为将所述概念特征进一步表示为包含数值类型的疾病与时间结果,以及包含所述数值类型和类别类型的检测与检查结果,得到属性与值特征;

所述获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型,具体包括:根据所述概念关系特征和所述属性与值特征的不同将句子分割成不同部分提取所述句子包含的语义信息;

将所述语义信息与所述概念特征和所述词特征进行融合训练所述并行自适应卷积神经网络模型,并在卷积层采用dropout操作,以及采用zero padding保持所述句子的有效性,得到所述疾病预测模型。