1.一种基于医学词典的实体提取方法,其特征在于,包括以下步骤:基于原始医学词典构建前缀词典和后缀词典,所述原始医学词典包含了所有医学名词与实体类别的对应关系;
对中文病历做n‑gram遍历,n为等于或小于中文病历长度的非零自然数;
将遍历后得到各个词组分别与所述原始医学词典、所述前缀词典和所述后缀词典进行匹配并输出匹配结果,所述匹配结果包括匹配和不匹配,当匹配时所述匹配结果包含有匹配的词典名词和匹配的医学名词及该医学名词对应的实体类别;
根据匹配结果与特征向量的对应规则,输出每个字的特征向量;具体包括以下步骤:当所述匹配结果为匹配时,根据所述匹配结果中包含的词典名词调用适用的对应规则,所述对应规则包括与原始医学词典相匹配时适用的第一对应规则,根据所述适用的对应规则输出每个字的特征向量;其中,所述第一对应规则包括:所述特征向量的长度等于所述实体类别的数量;所述特征向量中每一维度对应一个所述实体类别;所述特征向量通过将初始向量值改为第一向量值、第二向量值或第三向量值对应表征单个字在词组中的首位、中间位或末位;
将输出的每个字的特征向量对应拼接每个字的初始向量之后,以得到用于表征所述中文病历的向量集;
将所述用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
2.根据权利要求1所述的基于医学词典的实体提取方法,其特征在于,所述前缀词典的构建包括以下步骤:
识别出所述原始医学词典中多于两个字的词组;
将识别出的所述词组的前i个字存入前缀词典,i为小于词组长度且大于词组长度的一半的自然数,其中词组长度的一半取整数。
3.根据权利要求1所述的基于医学词典的实体提取方法,其特征在于,所述后缀词典的构建包括以下步骤:
识别出所述原始医学词典中多于两个字的词组;
将识别出的所述词组的后i个字存入后缀词典,i为小于词组长度且大于等于词组长度的一半的自然数,其中词组长度的一半取整数。
4.根据权利要求1所述的基于医学词典的实体提取方法,其特征在于,所述根据匹配结果与特征向量的对应规则,输出每个字的特征向量还包括以下步骤:当所述匹配结果为匹配时,根据所述匹配结果中包含的词典名词调用适用的对应规则,所述对应规则还包括与前缀词典相匹配时适用的第二对应规则,以及与后缀词典相匹配时适用的第三对应规则;
根据所述适用的对应规则输出每个字的特征向量;
当所述匹配结果为不匹配时,对应每个字输出初始的特征向量。
5.根据权利要求4所述的基于医学词典的实体提取方法,其特征在于,所述第二对应规则包括:
所述特征向量的长度等于所述实体类别的数量;
所述特征向量中每一维度对应一个所述实体类别;
所述特征向量通过将初始向量值改为第一向量值或第二向量值对应表征单个字在词组中的首位或非首位。
6.根据权利要求4所述的基于医学词典的实体提取方法,其特征在于,所述第三对应规则包括:
所述特征向量的长度等于所述实体类别的数量;
所述特征向量中每一维度对应一个所述实体类别;
所述特征向量通过将初始向量值改为第二向量值或第三向量值对应表征单个字在词组中的非末位或末位。
7.一种基于医学词典的实体提取装置,其特征在于,包括:词典构建模块,用于基于原始医学词典构建前缀词典和后缀词典,所述原始医学词典包含了所有医学名词与实体类别的对应关系;
遍历模块,用于对中文病历做n‑gram遍历,n为等于或小于中文病历长度的非零自然数;
匹配模块,用于将遍历后得到各个词组分别与所述原始医学词典、所述前缀词典和所述后缀词典进行匹配并输出匹配结果,所述匹配结果中包含有匹配的词典名词和匹配的医学名词及该医学名词对应的实体类别;
特征向量生成模块,用于根据匹配结果与特征向量的对应规则,输出每个字的特征向量;具体包括:当所述匹配结果为匹配时,根据所述匹配结果中包含的词典名词调用适用的对应规则,所述对应规则包括与原始医学词典相匹配时适用的第一对应规则,根据所述适用的对应规则输出每个字的特征向量;其中,所述第一对应规则包括:所述特征向量的长度等于所述实体类别的数量;所述特征向量中每一维度对应一个所述实体类别;所述特征向量通过将初始向量值改为第一向量值、第二向量值或第三向量值对应表征单个字在词组中的首位、中间位或末位;
向量集生成模块,用于将输出的每个字的特征向量对应拼接每个字的初始向量之后,以得到用于表征所述中文病历的向量集;
实体提取模型,用于将所述用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。
8.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1‑6中任一项所述的基于医学词典的实体提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以实现如权利要求1‑6中任一项所述的基于医学词典的实体提取方法的步骤。