欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2019107878895
申请人: 南京信息职业技术学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种中文摘要生成方法,其特征在于,所述方法包括如下步骤:获取目标文本,将目标文本中的汉字拆分成笔画序列;

根据笔画序列确定目标文本的中文词向量序列;

将所述中文词向量序列输入至预训练好的编码器中,生成语义向量;

根据语义向量重组出最适合当前时刻的全文语义,将重组后的当前时刻的全文语义作为中间语义传送至预训练好的解码器;

解码器根据前一时刻预测的词语和所述中间语义推断下一时刻词的分布,最终所生成的词序列即为目标文本的摘要;

其中,所述根据笔画序列确定目标文本的中文词向量序列,包括:对所述笔画序列进行n‑gram切分,获取汉字笔画中的n‑gram信息;

根据n‑gram信息采用Skip‑Gram模型预测中心词上下文,获取对应的中文词向量序列;

所述根据语义向量重组出最适合当前时刻的全文语义,包括:在通过编码器生成语义向量时加入注意力机制,以计算不同输入词对解码器端的影响权重;

根据输入词对解码器端的影响权重结合解码器反馈的隐藏状态重组出最适合当前时刻的全文语义。

2.根据权利要求1所述的中文摘要生成方法,其特征在于,获取汉字笔画中的n‑gram信息的方法包括:将词语拆分成字符,找到每个字符对应的笔画序列;

将笔画序列ID化;

对ID化的笔画序列进行n‑gram求和,获取所述n‑gram信息。

3.根据权利要求1所述的中文摘要生成方法,其特征在于,所述编码器采用双向长短时记忆神经网络。

4.根据权利要求3所述的中文摘要生成方法,其特征在于,生成语义向量的方法包括:将中文词向量序列分别正向和反向输入至双向长短时记忆神经网络中,得到两种顺序下每个单词对应的两个隐藏状态;

将两个隐藏状态首尾拼接生成所述语义向量。

5.根据权利要求1所述的中文摘要生成方法,其特征在于,所述方法还包括采用集束搜索算法优化所生成的词序列。

6.根据权利要求1所述的中文摘要生成方法,其特征在于,所述方法还包括对目标文本进行预处理,包括:去除特殊字符,所述特殊字符包括标点符号、停用语气词和转折词;

将所有日期替换为TAG_DATE;

将超链接URL替换为标签TAG_URL;

将数字替换为TAG_NUMBER;

将英文单词替换为TAG_NAME_EN。

7.一种中文摘要生成系统,其特征在于,包括处理器和存储器,所述存储器上存储有程序,所述程序能够被所述处理器加载执行如权利要求1至6任一项所述方法的步骤。

8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。