1.一种指代消解方法,应用于电子装置,其特征在于,所述方法包括:对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类模型聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
2.根据权利要求1所述的指代消解方法,其特征在于,所述分类模型的训练步骤包括:构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型其中, 为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
3.根据权利要求2所述的指代消解方法,其特征在于,所述分类模型的优化损失函数通过下式(2)使用梯度下降的优化方法优化,其中,C是分类模型与其他模型区分的标志,θC表示待优化的分类模型的第一权重矩阵,LC(θC)表示分类模型的第一权重矩阵为θC时,所造成的损失,T(m)表示指代词m的正确先行词集合,F(m)表示指代词m的错误先行词集合,λ为正则化参数。
4.根据权利要求1所述的指代消解方法,其特征在于,所述排序模型进行排序的设定规则为候选先行词在正确先行词集合中最高分和在错误先行词中的最高分的两者间间隔最大。
5.根据权利要求1所述的指代消解方法,其特征在于,所述聚类模型的聚类步骤包括:根据下式(4)构建指代对分数模型
其中,D表示决策,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数, 为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
6.根据权利要求5所述的指代消解方法,其特征在于,所述聚类模型的聚类步骤还包括:判断指代词和其对应的先行词之间的共指概率是否大于设定阈值,删除不大于设定阈值的指代词。
7.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器中包括指代消解程序,所述指代消解程序被所述处理器执行时实现如下步骤:对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
8.根据权利要求7所述的电子装置,其特征在于,所述分类模型的训练步骤包括:构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型其中, 为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
9.根据权利要求7所述的电子装置,其特征在于,所述聚类模型的聚类步骤包括:根据下式(4)构建指代对分数模型
其中,D表示决策,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数, 为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括指代消解程序,所述指代消解程序被处理器执行时,实现如权利要求1至6中任一项所述的指代消解方法的步骤。