1.一种智能化文本纠错方法,其特征在于,所述方法包括:
利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型;
利用已标记文本集对所述初级文本纠错模型进行监督训练,得到标准文本纠错模型;
获取待纠错文本,对所述待纠错文本执行文本遮蔽操作得到一组或多组已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中,得到预测文本及所述预测文本的预测概率值;
在所述预测文本与所述待纠错文本不相同,且所述预测概率值大于预设概率值时,根据所述预测文本对所述待纠错文本进行文本纠错;
其中,所述利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型,包括:根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集;对所述未标记文本集进行位置标注得到文本位置集;根据所述文本向量转换方法,将所述文本位置集转化为位置向量集;将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,直至所述非监督训练的训练次数满足预设训练要求,退出训练得到初级文本纠错模型;
所述根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集,包括:采用如下转换方法,将所述未标记文本集转化为文本向量集:
其中,表示基于所述文本向量转换方法的文本决策树的路径值,表示所述未标记文本集中未标记文本的索引,且为正整数, 表示在路径 下,所述未标记文本集第个未标记文本的文本向量, 表示在路径 内第个未标记文本对应的霍夫曼编码,路径 为正整数,为所述文本向量转换方法的迭代因子,表示sigmoid函数, 为所述未标记文本集;
所述将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,包括:将所述文本向量集以向量数据为划分单位,划分出多组词语向量集;将所述文本向量集以向量的行为划分单位,划分出多组段落向量集;计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,根据所述权重关系更新所述原始文本纠错模型的内部参数。
2.如权利要求1所述的智能化文本纠错方法,其特征在于,所述计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,包括:依次选择所述词语向量集、所述段落向量集、所述位置向量集中任意一个向量作为目标向量;
对所述目标向量执行所述文本遮蔽操作,得到遮蔽向量;
计算所述遮蔽向量与所述词语向量集、所述段落向量集、所述位置向量集中内其他向量的权重,得到权重集,将所述权重集进行加权融合得到所述权重关系。
3.如权利要求1至2中任意一项所述的智能化文本纠错方法,其特征在于,所述利用已标记文本集对所述初级文本纠错模型进行监督训练,得到标准文本纠错模型,包括:从所述已标记文本集中提取已标记文本的标签,得到真实标签集;
根据所述文本向量转换方法,将所述已标记文本集转化为已标记文本向量集;
将所述已标记文本向量集输入至所述初级文本纠错模型进行监督训练,得到预测标签集;
若所述预测标签集与所述真实标签集的误差范围大于预设误差,继续进行所述监督训练,直至所述预测标签集与所述真实标签集的误差范围小于所述预设误差,退出所述监督训练,得到所述标准文本纠错模型。
4.如权利要求1至2中任意一项所述的智能化文本纠错方法,其特征在于,该方法还包括,包括:在所述预测文本与所述待纠错文本相同时,重新接收待纠错文本;或,在所述预测文本与所述待纠错文本不相同,且所述预测概率值小于预设概率值时,重新接收待纠错文本。
5.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的智能化文本纠错方法。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的智能化文本纠错方法。