利索能及
我要发布
收藏
专利号: 2017110007636
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种结构化文本的文本信息提取方法,其特征在于,包括:根据预设的段落主题将当前的结构化文本拆分为各个文本段落;

针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;

针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;

在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。

2.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,若选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,所述采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息的步骤具体包括:采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;

将所述两个以上文本信息进行合并处理,得到合并后的文本信息。

3.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,所述从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串包括:获取所述文本段落对应的段落主题的主题关键字;

若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;

将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。

4.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,所述根据预设的段落主题将当前的结构化文本拆分为各个文本段落包括:从预设的多个段落主题中确定出与所述结构化文本的文本类型对应的段落主题;

根据确定出的所述段落主题将所述结构化文本拆分为各个文本段落。

5.根据权利要求1至4中任一项所述的结构化文本的文本信息提取方法,其特征在于,在按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息之前,还包括:根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;

根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。

6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述结构化文本的文本信息提取方法的步骤。

7.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:根据预设的段落主题将当前的结构化文本拆分为各个文本段落;

针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;

针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;

在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。

8.根据权利要求7所述的服务器,其特征在于,若选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,所述采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息的步骤具体包括:采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;

将所述两个以上文本信息进行合并处理,得到合并后的文本信息。

9.根据权利要求7所述的服务器,其特征在于,所述从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串包括:获取所述文本段落对应的段落主题的主题关键字;

若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;

将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。

10.根据权利要求7至9中任一项所述的服务器,其特征在于,在按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息之前,还包括:根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;

根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。