1.一种基于上下文信息的对话话题分割方法,其特征在于,包括以下步骤:步骤1:采集多轮对话数据,对其进行随机抽样获取训练数据集;
步骤2:对所述训练数据集进行向量化处理,得到所述训练数据集相应的语料向量空间;
步骤3:对所述语料向量空间整理为句子序列;
步骤4:计算相邻句子之间的相关性;
步骤5:根据相邻句子之间的相关性识别多轮对话数据的话题边界,形成话题分割模型,实现多轮对话数据的话题分割。
2.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤2中所述向量化处理采用Word2Vec工具。
3.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤4具体包括:步骤4.1:根据所述句子序列,以句子对作为滑窗的基本单位,获取相邻句子对;
步骤4.2:对获取的每一组相邻句子对,分别进行关键词提取;具体地,本实施例采用TF-IDF算法或过滤规则;
步骤4.3:计算两个句子中所有关键词之间的相关性;具体地,假设相邻两个句子分别为S1和S2,将S2中的每一个词语与S1中的所有词语进行相关性计算;
步骤4.4:计算相邻句子对之间的相关性,具体方法为:设S1和S2为相邻两个句子,将S2中的某个关键词与S1中的所有关键词相关性的最大值作为该关键词与句子S1的相关性,S2中所有关键词与句子S1的相关性的均值作为S1和S2两个句子的相关性。
4.如权利要求3所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤4.3具体包括:步骤4.3.1:构造目标词语wj的Huffman编码;
步骤4.3.2:将所述Huffman编码与语料向量空间中目标词语wj的词向量相结合,得到新的词向量空间;
步骤4.3.3:获取目标词语wj的Huffman编码路径序列C;
步骤4.3.4:对于任意需要计算与目标词语wj的相关性的词语wi,计算词语wi词向量与编码路径序列上节点的相关性;
步骤4.3.5:求得词语wi词向量在各个节点相关性后,将整条路径上计算得出的相关性相乘,得到两个词语的似然概率,即两个词语的相关性。
5.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述词语wi词向量与编码路径序列上节点的相关性计算公式为:式中,i表示词语wi在语料向量空间中的词向量,θ表示编码路径序列上的节点向量,c∈C,表示wi的词向量到目标词向量路径上节点的编码序列,T表示转置。
6.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤5中识别多轮对话数据的话题边界包括:判断句子序列中每相邻句子对的相关性是否大于阈值,若大于,则需要设置分割点。
7.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述方法还包括步骤6:采用验证数据集对所述话题分割模型进行测试,所述验证数据集是通过对采集的所述多轮对话数据进行随机抽样获取的。
8.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述方法还包括步骤7:基于人工标注和话题分割模型,进行话题跟踪,所述人工标注用来标注是否存在话题转移。
9.一种基于上下文信息的对话话题分割系统,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行以下处理:步骤1:采集多轮对话数据,对其进行随机抽样获取训练数据集;
步骤2:对所述训练数据集进行向量化处理,得到所述训练数据集相应的语料向量空间;
步骤3:对所述语料向量空间整理为句子序列;
步骤4:计算相邻句子之间的相关性;
步骤5:根据相邻句子之间的相关性识别多轮对话数据的话题边界,形成话题分割模型,实现多轮对话数据的话题分割。
10.一种计算机可读存储介质,其上存储有计算机程序,用于基于上下文信息的对话话题分割,其特征在于,该程序被处理器执行时执行以下步骤:步骤1:采集多轮对话数据,对其进行随机抽样获取训练数据集;
步骤2:对所述训练数据集进行向量化处理,得到所述训练数据集相应的语料向量空间;
步骤3:对所述语料向量空间整理为句子序列;
步骤4:计算相邻句子之间的相关性;
步骤5:根据相邻句子之间的相关性识别多轮对话数据的话题边界,形成话题分割模型,实现多轮对话数据的话题分割。