利索能及
我要发布
收藏
专利号: 2019109954573
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本信息提取方法,其特征在于,所述方法包括:

识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;

将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句;

将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;

提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;

对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集;

利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;

将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;

根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;

将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;

根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;

根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。

2.如权利要求1所述的方法,其特征在于,所述提取所述扩展后的第一语言语料实体对的特征向量包括:确定所述扩展后的第一语言语料实体对的关系词;

确定所述扩展后的第一语言语料实体对的两个第一语言实体的邻近词和所述关系词的邻近词;

根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征;

计算所述扩展后的第一语言语料实体对的词间距离;

将所述两个第一语言实体、所述两个第一语言实体的邻近词、所述关系词的邻近词、所述句法特征、所述词间距离组合为所述扩展后的第一语言语料实体对的特征向量。

3.如权利要求2所述的方法,其特征在于,所述确定所述扩展后的第一语言语料实体对的关系词包括:若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在一个动词,将所述动词作为所述扩展后的第一语言语料实体对的关系词;

若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在多个动词,则选择所述多个动词中与所述扩展后的第一语言语料实体对的关系强度最大的动词作为所述扩展后的第一语言语料实体对的关系词。

4.如权利要求2所述的方法,其特征在于,所述根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征包括:对所述扩展后的第一语言语料实体对所在语句进行依存句法分析,得到所述扩展后的第一语言语料实体对所在语句的核心词、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系;

计算所述核心词与所述关系词的距离;

根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离。

5.如权利要求4所述的方法,其特征在于,所述根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离包括:若所述扩展后的第一语言语料实体对的第一个第一语言实体与所述关系词的依存关系为主谓关系,则所述第一个第一语言实体与所述关系词的距离为1,若所述第一个第一语言实体与所述关系词的依存关系为定中关系,则所述第一个第一语言实体与所述关系词的距离为-1,若所述第一个第一语言实体与所述关系词的依存关系为主谓关系和定中关系以外的其他关系,则所述第一个第一语言实体与所述关系词的距离为0;

若所述扩展后的第一语言语料实体对的第二个第一语言实体与所述关系词的依存关系为动宾关系,则所述第二个第一语言实体与所述关系词的距离为1,若所述第二个第一语言实体与所述关系词的依存关系为定中关系,则所述第二个第一语言实体与所述关系词的距离为-1,若所述第二个第一语言实体与所述关系词的依存关系为动宾关系和定中关系以外的其他关系,则所述第二个第一语言实体与所述关系词的距离为0。

6.如权利要求2所述的方法,其特征在于,所述计算所述扩展后的第一语言语料实体对的词间距离包括:根据所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量确定所述第一个第一语言实体与所述第二个第一语言实体的距离;

根据所述第一个第一语言实体与所述关系词之间的词语的数量确定所述第一个第一语言实体与所述关系词的距离;

根据所述第二个第一语言实体与所述关系词之间的词语的数量确定所述第二个第一语言实体与所述关系词的距离。

7.如权利要求1所述的方法,其特征在于,所述利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器包括:用所述第一语言标记语料集训练所述第一语言分类器;

用所述第一语言分类器对所述第一语言未标记语料集中的实体对进行分类,得到所述第一语言未标记语料集中的实体对的实体关系和分类置信度;

按照分类置信度从高到低的顺序从所述第一语言未标记语料集中选择第一预设数量的实体对Ec,将Ec翻译为所述第二语言,得到Ecte;

用所述第二语言标记语料集训练所述第二语言分类器;

用所述第二语言分类器对所述第二语言未标记语料集中的实体对进行分类,得到所述第二语言未标记语料集中的实体对的实体关系和分类置信度;

按照分类置信度从高到低的顺序从所述第二语言未标记语料集中选择所述第一预设数量的实体对Ee,将Ee翻译为所述第一语言,得到Eetc;

将Ec和Eetc添加到所述第一语言标记语料集;

将Ee和Ecte添加到所述第二语言标记语料集;

从所述第一语言未标记语料集中删除Ec,从所述第二语言未标记语料集中删除Ee;

循环执行上述步骤,直到所述第一语言未标记语料集和所述第二语言未标记语料集为空集。

8.一种文本信息提取装置,其特征在于,所述装置包括:

识别模块,用于识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;

扩展模块,用于将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句,将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;

第一提取模块,用于提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;

标记模块,用于对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体的特征向量对组成的第二语言未标记语料集;

训练模块,用于利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;

第二提取模块,用于将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;

第一分类模块,用于根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;

第三提取模块,用于将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;

第二分类模块,用于根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;

确定模块,用于根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。

9.一种计算机设备,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述文本信息提取方法。

10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述文本信息提取方法。