利索能及
我要发布
收藏
专利号: 2018109485877
申请人: 上海颐为网络科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于结构化的文本编辑方法,其特征在于,包括:步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;

步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;

步骤3:将处理后的知识结构显示在界面上供用户编辑;

步骤4:将用户编辑后的知识结构自动转换为新的电子文本。

2.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤1中的待编辑的电子文本是同一文本或多个文本。

3.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤2进一步包括:步骤a:将字符串文本按照换行符进行分隔;

步骤b:加载序号,其中序号分为多个等级的序号;

步骤c:创建字典格式的数据;

步骤d:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行不同等级序号的检索;

步骤e:输出嵌套形式的字典格式的数据。

4.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,步骤b中加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号。

5.根据权利要求4所述的基于结构化的文本编辑方法,其特征在于,在步骤b和步骤c之间还包括:从字符串文本中识别并分隔出目录和/或结论对应的一段文本。

6.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,在步骤2中,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。

7.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤3中的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。

8.一种基于结构化的文本编辑系统,其特征在于,系统包括:第一格式转换模块,用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;

自动结构化处理模块,用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;

知识结构编辑模块,用于将处理后的知识结构显示在界面上并由用户进行编辑;

第二格式转换模块,用于将用户编辑后的知识结构自动转换为新的电子文本。

9.根据权利要求8所述的基于结构化的文本编辑系统,其特征在于,自动结构化处理模块进一步包括:换行分隔单元,将字符串文本按照换行符进行分隔;

序号加载单元,加载序号;

字典创建单元,创建字典格式的数据;

循环检索单元,基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号以及后续等级序号的检索;

字典数据输出单元,输出经过自动结构化处理的嵌套形式的字典格式数据。

10.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,序号加载单元所加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号;自动结构化处理模块还包括:序号检索单元,检索字符串文本中的序号。

11.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,自动结构化处理模块还包括:特殊段落分隔单元,从字符串文本中识别并分隔出目录和/或结论对应的一段文本。

12.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,系统还包括:深度学习目标检测模块,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。

13.根据权利要求8所述的基于结构化的文本编辑系统,其特征在于,第一格式转换模块中待编辑的电子文本是同一文本或多个文本;知识结构编辑模块的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。

14.一种基于结构化的文本编辑系统,其特征在于,包括:处理器;以及

存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求1至7中任一项所述的方法。

15.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求1至7中任一项所述的方法。