利索能及
我要发布
收藏
专利号: 2018108469538
申请人: 杭州海康威视数字技术股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本生成方法,其特征在于,所述方法包括:针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,所述需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;

针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,所述第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;

针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与所述记忆网络中的第一样本文本的文本结构相同,所述第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,所述记忆网络为以多个预先收集的所述第一样本文本进行训练得到的;

按照所述第一位置信息,排列每个有效文本中的各分词,得到所述第一待生成文本;

按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本。

2.根据权利要求1所述的方法,其特征在于,所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,包括:针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,所述同一事件与所述每个模块的需求信息对应;

针对所述每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,所述第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的;

针对所述每个模块,将该模块的需求信息输入预先训练得到的第三循环神经网络,得到所述需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;

针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和所述第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在所述备用文本中的第二位置信息,所述第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述指定需求信息对应的同一事件的样本完整文本进行训练得到的,所述第三位置信息为符合该模块的需求信息的文本在所述样本完整文本中的位置信息;

针对每个模块的每个备用文本,从该备用文本中抽取所述第二位置信息处的文本,作为符合该模块的需求信息的有效文本。

3.根据权利要求1所述的方法,其特征在于,所述该模块的需求信息为多个:所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,包括:针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本;

所述针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,包括:针对所述每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;

在所述针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息之前,所述方法还包括:

针对所述每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;

所述针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,包括:针对所述每个模块的每个需求信息,将该需求信息对应的每个有效文本的每个第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且所述第一待生成文本的文本结构与所述记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,所述第四位置信息为符合该需求信息的每个文本在所述第一样本文本中的位置信息。

4.根据权利要求1所述的方法,其特征在于,在所述针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量之前,所述方法还包括:

针对所述每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,所述文本类型包括结构化类型和非结构化类型;

针对所述每个模块,当该模块的第一待生成文本的文本类型为所述非结构化类型时,执行所述将该模块的所述多个有效文本输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:针对所述每个模块,当该模块的第一待生成文本的文本类型为所述结构化类型时,执行以下步骤:

将该模块的所述多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,所述序列标注模型为以多个预先收集的预先标注了所述第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的;

根据所述第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,所述第二待生成文本为该模块对应的文本;

根据所述有效文本中的各分词按照所述第五位置信息,排列每个有效文本中的各分词,得到所述第二待生成文本;

按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本和每个模块的所述第二待生成文本,得到所述待生成文本。

6.根据权利要求1所述的方法,其特征在于,在所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本之后,所述方法还包括:

针对所述每个模块,为该模块的每个有效文本标注该模块的第一标识信息;

所述按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本,包括:

针对所述每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的所述第一待生成文本在待生成文本中的第六位置信息,所述预设的第一标识信息与模块位置的对应关系用于表示所述待生成文本的固定写作格式;

按照所述第六位置信息排列每个第一待生成文本,得到所述待生成文本。

7.一种文本生成装置,其特征在于,所述装置包括:文本获取模块,用于针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,所述需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;

特征提取模块,用于针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,所述第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;

位置信息确定模块,用于针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与所述记忆网络中的第一样本文本的文本结构相同,所述第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,所述记忆网络为以多个预先收集的所述第一样本文本进行训练得到的;

文本生成模块,用于按照所述第一位置信息,排列每个有效文本中的各分词,得到所述第一待生成文本;按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本。

8.根据权利要求7所述的装置,其特征在于,所述文本获取模块,具体用于:针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,所述同一事件与所述每个模块的需求信息对应;

所述特征提取模块,还用于针对所述每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,所述第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的;将该模块的需求信息输入预先训练得到的第三循环神经网络,得到所述需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;

所述位置信息确定模块,还用于针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和所述第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在所述备用文本中的第二位置信息,所述第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述指定需求信息对应的同一事件的样本完整文本进行训练得到的,所述第三位置信息为符合该模块的需求信息的文本在所述样本完整文本中的位置信息;

所述文本获取模块,具体用于针对每个模块的每个备用文本,从该备用文本中抽取所述第二位置信息处的文本,作为符合该模块的需求信息的有效文本。

9.根据权利要求7所述的装置,其特征在于,所述该模块的需求信息为多个:所述文本获取模块,具体用于:

针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本;

所述特征提取模块,还用于:

针对所述每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;

针对所述每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;

所述位置信息确定模块,具体用于:针对所述每个模块的每个需求信息,将该需求信息对应的每个有效文本的每个第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且所述第一待生成文本的文本结构与所述记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,所述第四位置信息为符合该需求信息的每个文本在所述第一样本文本中的位置信息。

10.根据权利要求7所述的装置,其特征在于,所述装置还包括:文本分类模块,用于针对所述每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,所述文本类型包括结构化类型和非结构化类型;

针对所述每个模块,当该模块的第一待生成文本的文本类型为所述非结构化类型时,所述文本获取模块,用于将该模块的所述多个有效文本输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。

11.根据权利要求10所述的装置,其特征在于,针对所述每个模块,当该模块的第一待生成文本的文本类型为所述结构化类型时,所述文本获取模块,用于:将该模块的所述多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,所述序列标注模型为以多个预先收集的预先标注了所述第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的;

所述位置信息确定模块,还用于根据所述第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,所述第二待生成文本为该模块对应的文本;

所述文本生成模块,还用于根据所述有效文本中的各分词按照所述第五位置信息,排列每个有效文本中的各分词,得到所述第二待生成文本;按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本和每个模块的所述第二待生成文本,得到所述待生成文本。

12.根据权利要求7所述的装置,其特征在于,所述文本生成模块,具体用于:针对所述每个模块,为该模块的每个有效文本标注该模块的第一标识信息;

针对所述每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的所述第一待生成文本在待生成文本中的第六位置信息,所述预设的第一标识信息与模块位置的对应关系用于表示所述待生成文本的固定写作格式;

按照所述第六位置信息排列每个第一待生成文本,得到所述待生成文本。

13.一种计算机设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现如权利要求1‑6任一所述的方法步骤。

14.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1‑6任一所述的方法步骤。