1.一种中文拼写纠错方法,其特征在于,包括:
将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
2.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字,包括:通过查表将所述句子样本中的每个字表示成向量;
将得到的所述向量传入BiGRU或BiLSTM层中,并将每个所述向量对应位置的隐层状态作为对应所述向量经过BiGRU或BiLSTM层的输出;
将所述输出输入到CRF层中,计算每个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字。
3.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合,包括:使用标识符对所述错别字进行遮罩;
将所述句子样本输入至Transformer模块中,得到所述句子样本中每个字的向量表示;
使用线性层将每个字的向量表示投射到向量空间,并使用softmax激活函数转成选择概率,根据所述选择概率从字典中选择k个候选字添加到对应所述遮罩位置的所述候选字集合中。
4.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤,包括:对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中;
基于汉字的笔画构成,计算所述候选字集合中的所有候选字与对应的所述错别字的笔画编辑距离,并将所述笔画编辑距离作为形近分数;
基于汉字的拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的拼音编辑距离,并将所述拼音编辑距离作为音近分数;
依据所述形近分数与音近分数的权重,对所述形近分数与音近分数进行加权处理,根据加权结果对所述候选字集合进行过滤。
5.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图,包括:将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建对应所述错别字的替换概率的有向图网络;
将所述错别字与所述每一个候选字之间的替换概率进行初始化;
使用图神经网络对所述有向图网络的边权值进行迭代学习,得到最优的替换概率图。
6.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字,包括:为所述形近分数、音近分数及替换概率图分别设置至少一轮排序处理过程,并为每一轮排序处理过程设置一个对应的排序阈值;
在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,并在最后一轮排序处理过程结束后,输出最终保留的候选字,并使用所述最终保留的候选字替换对应的错别字。
7.根据权利要求6所述的中文拼写纠错方法,其特征在于,所述在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,包括:在形近排序处理过程中,将所有候选字与对应错别字的形近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
在音近排序处理过程中,将所有候选字与对应错别字的音近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
在替换概率排序处理过程中,将所有候选字与对应错别字的替换概率与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除。
8.一种中文拼写纠错装置,其特征在于,包括:
错别字判断单元,用于将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
遮罩预测单元,用于使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
候选字过滤单元,用于对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
替换概率学习单元,用于构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
排序单元,用于基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的中文拼写纠错方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的中文拼写纠错方法。