1.一种基于K‑means模型和神经网络模型的生成文本摘要的方法,其特征在于,包括:对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;
确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K‑means模型中,训练得到聚类中心向量;
计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;
将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要;
所述生成式神经网络模型包括基于注意力模型的编码器以及基于注意力模型的解码器;所述基于注意力模型的解码器包括beam‑search束搜索解码器;
所述将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要,具体包括:所述生成式神经网络中的所述基于注意力模型的编码器基于所述参考摘要将所述原始文本编码为一个语义向量;所述生成式神经网络中的所述基于注意力模型的解码器对所述语义向量进行解码,生成所述文本摘要;
所述生成式神经网络中的所述基于注意力模型的解码器对所述语义向量进行解码,生成文本摘要,具体包括:所述beam‑search束搜索解码器对所述语义向量进行解码,依次生成预设阈值的新词语,并根据所述beam‑search束搜索解码器中的集束算法从所述新词语中生成所述文本摘要。
2.根据权利要求1所述的基于K‑means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量,具体包括:将所述原始文本按照标点符号分成单个句子,并保存至句子文档中;
将所述句子文档中的所述句子分成单个的所述词语,并保存至分词文档中;
将所述句子文档中的所述句子和所述分词文档中的所述词语输入至doc2vec模型中,训练得到词向量,并基于所述词向量训练得到所述句向量。
3.根据权利要求1所述的基于K‑means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述确定所述原始文本的聚类中心个数,包括:所述聚类中心个数通过簇内误差平方法和/或肘部法确定。
4.根据权利要求1所述的基于K‑means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述基于注意力模型的解码器还包括复制模型;
所述beam‑search束搜索解码器对所述语义向量进行解码,依次生成预设阈值的新词语,并根据所述beam‑search束搜索解码器中的集束算法生成所述文本摘要,还包括:所述复制模型将所述beam‑search束搜索解码器在解码过程中无法生成的所述新词语直接从所述原始文本中复制到所述beam‑search束搜索解码器的输出中。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行是实现权利要求1至4中任一项所述的生成文本摘要的方法的步骤。
6.一种计算机设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的基于K‑means模型和神经网络模型的生成文本摘要的方法的步骤。