1.一种文档目录自动生成方法,其特征在于,所述方法包括:提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
获取训练后的所述标题规则的句式主体和所述句式主体的语义槽,根据所述句式主体、所述语义槽和所述训练后的标题规则中剩余的非主体部分生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
2.如权利要求1所述的文档目录自动生成方法,其特征在于,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
3.如权利要求2所述的文档目录自动生成方法,其特征在于,所述生成正则表达式之前,所述文档目录自动生成方法还包括:基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
4.如权利要求3所述的文档目录自动生成方法,其特征在于,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
5.如权利要求1至4中任意一项所述的文档目录自动生成方法,其特征在于:所述文档目录为可扩展标记语言;
所述目标文档的文件格式为Microsoft Office Word。
6.一种文档目录自动生成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文档目录自动生成程序,所述文档目录自动生成程序被所述处理器执行时实现如下步骤:提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
获取训练后的所述标题规则的句式主体和所述句式主体的语义槽,根据所述句式主体、所述语义槽和所述训练后的标题规则中剩余的非主体部分生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
7.如权利要求6所述的文档目录自动生成装置,其特征在于,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型的构建,包括:建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
8.如权利要求7所述的文档目录自动生成装置,其特征在于,配置正则表达式之前,所述文档目录自动生成方法还包括:基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
9.如权利要求8所述的文档目录自动生成装置,其特征在于,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文档目录自动生成程序,所述文档目录自动生成程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的文档目录自动生成方法的步骤。