利索能及
我要发布
收藏
专利号: 2016112218228
申请人: 上海智臻智能网络科技股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种问答抽取方法,其特征在于,包括:

对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;

将所述至少一部分问句的回答对应于所述问句聚类结果进行分组;

所述对问答数据中的至少一部分问句进行聚类之前还包括:获取待优化业务类型的关键词列表;

利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的;

所述对所述过滤后的问句进行聚类包括:

基于分词词典对所述过滤后的问句进行分词,以得到第一分词结果;

基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;

基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组;

所述对所述过滤后的问句进行聚类还包括:

对处于每一组内的问句进行聚类,以得到每一组的多个类;

所述对处于每一组内的所述问句进行聚类包括:计算所述每一组内的问句中每两个问句之间的语义相似度;

如果所述语义相似度达到相似度阈值,则确定所述两个问句为相似句;

计算所述每一组内每一问句的相似句的数量;

确定每一组内所述相似句的数量最大的问句为该组的聚类中心;

对于每一组内除所述聚类中心以外的每一其他问句,如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句归类至所述聚类中心所在的类,否则将所述其他问句作为新的聚类中心,直至该组内的所有问句都完成归类。

2.根据权利要求1所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句的相似问句划分至所述聚类中心所在的类。

3.根据权利要求2所述的问答抽取方法,其特征在于,所述对处于每一组内的所述问句分别进行聚类还包括:将所述其他问句的相似问句标记为聚类边缘;

对于未完成归类的问句,如果所述问句为所述聚类边缘的相似问句,则将所述问句作为新的聚类中心。

4.根据权利要求1所述的问答抽取方法,其特征在于,根据以下一种或多种参数计算所述相似度:编辑距离、Jaccard距离、WMD距离。

5.根据权利要求1所述的问答抽取方法,其特征在于,所述对所述过滤后的问答数据中问句进行聚类之后还包括:统计所述每一组内的问句的频次以及所述每一组内的问句的数量;

基于所述每一组内的问句的数量对所述多个组进行排序,以及基于每一组内的各个类内所有问句的所述频次之和对所述每一组内的多个类进行排序。

6.根据权利要求1所述的问答抽取方法,其特征在于,所述获取待优化业务类型的关键词列表包括以下步骤的一步或多步:针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;

将所述关键词加入所述关键词列表。

7.根据权利要求6所述的问答抽取方法,其特征在于,所述针对所述待优化业务类型从预设词类表中获取第一业务关键词之后还包括:将所述第一业务关键词加入所述分词词典,对所述第一分词结果进行关键词提取是基于所述分词词典完成的。

8.根据权利要求1所述的问答抽取方法,其特征在于,所述将所述至少一部分问句的回答对应于所述问句聚类结果进行分组之前,还包括:选取距离每一问句的提问时间最近的设定数量的所述回答;

过滤反问句式的所述回答;

基于客服礼貌用语库对所述回答进行过滤;

过滤无用回答句式的所述回答。

9.根据权利要求1所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤包括:当问答数据中的问句包括至少一个所述关键词列表中的词语时,保留所述问句。

10.根据权利要求1所述的问答抽取方法,其特征在于,所述利用所述关键词列表对所有问答数据进行过滤之后还包括以下一个或多个步骤:滤除仅包括单个词的问句;利用预设词语过滤所述问句;去除所述问句中的链接;查询知识库中所述待优化业务类型的知识点,去除可匹配到答案的所述问句;整合所述问答数据之前的历史数据中被过滤掉的问句。

11.根据权利要求10所述的问答抽取方法,其特征在于,所述预设词语包括以下一种或多种:疑问词、预设的现象词和否定词。

12.根据权利要求1所述的问答抽取方法,其特征在于,所述对问答数据中至少一部分问句进行聚类之前还包括:过滤不符合设定格式的所述问答数据,其中,所述设定格式包括会话编号字段、问句/回答标识字段、日期字段以及句子内容字段;

将所述问答数据统一为文本格式。

13.根据权利要求1所述的问答抽取方法,其特征在于,还包括:对分组后的所述回答进行聚类,以得到回答聚类结果。

14.根据权利要求1所述的问答抽取方法,其特征在于,采用K均值算法对所述至少一部分问句进行聚类。

15.根据权利要求1至14任一项所述的问答抽取方法,其特征在于,还包括:将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。

16.一种问答抽取装置,其特征在于,包括:问句聚类模块,用以对问答数据中至少一部分问句进行聚类,以得到问句聚类结果,所述问答数据包括人工客服的问答记录,所述问句聚类结果包括多个组;

回答分组模块,用以将所述至少一部分问句的回答对应于所述问句聚类结果进行分组;

关键词列表获取模块,用以获取待优化业务类型的关键词列表;

过滤模块,用以利用所述关键词列表对所述问答数据中的问句进行过滤,以得到过滤后的问句,所述问句聚类结果是对所述过滤后的问句进行聚类得到的;

所述问句聚类模块包括:

分词词典,存储有预设的待分词词语;

分词单元,用以基于所述分词词典对所述过滤后的问句进行分词,以得到第一分词结果;

关键词提取单元,用以基于所述第一分词结果对所述过滤后的问句进行关键词提取处理,以得到关键词;

分组单元,用以基于所述关键词进行分组,以得到所述问句聚类结果的多个组,其中,包括相同关键词的所述问句处于同一组;

所述问句聚类模块还包括:

聚类单元,用以对处于每一组内的问句分别进行聚类,以得到每一组的多个类;

所述聚类单元包括:

相似度计算子单元,用以计算所述每一组内的问句中每两个问句之间的语义相似度;

语义相似度确定子单元,用以在所述语义相似度达到相似度阈值时,则确定所述两个问句为相似句;

数量计算子单元,用以计算所述每一组内每一问句的相似句的数量;

聚类中心确定子单元,用以确定每一组内所述相似句的数量最大的问句为该组的聚类中心;

归类子单元,用以对于每一组内除所述聚类中心以外的每一其他问句,如果所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值,则将所述其他问句归类至所述聚类中心所在的类,否则将所述其他问句作为新的聚类中心,直至该组内的所有问句都完成归类。

17.根据权利要求16所述的问答抽取装置,其特征在于,所述归类子单元在所述其他问句与所述聚类中心的语义相似度达到所述相似度阈值时,则将所述其他问句的相似问句划分至所述聚类中心所在的类。

18.根据权利要求17所述的问答抽取装置,其特征在于,所述归类子单元包括:标记子单元,用以将所述其他问句的相似问句标记为聚类边缘;

分类子单元,用以对于未完成归类的问句,如果所述问句为所述聚类边缘的相似问句,则将所述问句作为新的聚类中心。

19.根据权利要求16所述的问答抽取装置,其特征在于,所述语义相似度计算子单元根据以下一种或多种参数计算所述语义相似度:编辑距离和Jaccard距离、WMD距离。

20.根据权利要求16所述的问答抽取装置,其特征在于,还包括:统计模块,用以统计所述每一组内的问句的频次以及所述每一组内的问句的数量;

排序模块,用以基于所述每一组内的问句的数量对所述多个组进行排序,以及基于每一组内的各个类内所有问句的所述频次之和对所述每一组内的多个类进行排序。

21.根据权利要求16所述的问答抽取装置,其特征在于,还包括预设词类表,用于存储所述待优化业务类型对应的第一业务关键词;

所述关键词列表获取模块针对所述待优化业务类型从预设词类表中获取第一业务关键词,以加入所述关键词列表;所述关键词列表获取模块将所述关键词加入所述关键词列表。

22.根据权利要求21所述的问答抽取装置,其特征在于,包括:加入模块,用以将所述第一业务关键词加入所述分词词典,对所述第一分词结果进行关键词提取是基于所述分词词典完成的。

23.根据权利要求16所述的问答抽取装置,其特征在于,还包括:回答筛选模块,用以采用以下一种或多种方式对所述至少一部分问句的回答进行筛选:选取距离每一问句的提问时间最近的设定数量的所述回答;

过滤反问句式的所述回答;

基于客服礼貌用语库对所述回答进行过滤;

过滤无用回答句式的所述回答。

24.根据权利要求16所述的问答抽取装置,其特征在于,所述过滤模块在问答数据中的问句包括至少一个所述关键词列表中的词语时,保留所述问句。

25.根据权利要求16所述的问答抽取装置,其特征在于,还包括:滤除模块,用以进行以下一种或多种操作:滤除仅包括单个词的问句;利用预设词语过滤所述问句;去除所述问句中的链接;查询知识库中所述待优化业务类型的知识点,去除可匹配到答案的所述问句;整合所述问答数据之前的历史数据中被过滤掉的问句。

26.根据权利要求25所述的问答抽取装置,其特征在于,所述预设词语包括以下一种或多种:疑问词、预设的现象词和否定词。

27.根据权利要求16所述的问答抽取装置,其特征在于,还包括:过滤单元,用以过滤不符合设定格式的所述问答数据,其中,所述设定格式包括会话编号字段、问句/回答标识字段、日期字段以及句子内容字段;

格式统一单元,用以将所述问答数据统一为文本格式。

28.根据权利要求16所述的问答抽取装置,其特征在于,还包括:回答聚类模块,用以对分组后的所述回答进行聚类,以得到回答聚类结果。

29.根据权利要求16所述的问答抽取装置,其特征在于,所述问句聚类模块采用K均值算法对所述至少一部分问句进行聚类。

30.根据权利要求16至29任一项所述的问答抽取装置,其特征在于,还包括:加入模块,用以将所述问句聚类结果以及分组后的回答加入知识库,所述知识库用于自动问答交互。

31.一种终端,其特征在于,包括如权利要求16至30任一项所述的问答抽取装置。