1.一种基于语序与语义联合分析的中文文本检错方法,其特征在于包括以下步骤:步骤1:数据预处理;
1‑1获取原始文本数据,将原始文本数据中所有文本按字级别划分,构建得到中文字集合D(w);对中文字集合D(w)中插入标识符,然后使用索引对中文字集合D(w)进行标记,每一个字对应一个字典索引,形成字典Dic(w,k);
1‑2对原始文本数据中文本语句Token化,并加入标识符,并将其进行固定句长;
1‑3根据步骤1‑1的字典索引对步骤1‑2Token化后的文本语句序列化;
1‑4对步骤1‑3索引序列化后的数据通过字嵌入Embedding技术映射成768维向量;
步骤2:通过基于语序与语义联合分析的中文文本检错模型RFRA,实现中文文本检错;
所述基于语序与语义联合分析的中文文本检错模型包括信息提取模块、自注意力模块Self‑Attention、输出层;
所述信息提取模块包括双向门控循环神经网络BiGRU和语义理解模块FR;
所述语义理解模块FR的输入为步骤1预处理后的768维向量,用于提取文本语义信息;
其包括多个语义理解单元,每个语义理解单元包括全卷积神经网络FCN;每个语义理解单元采用残差网络ResNet连接,并且采用改进的Sigmoid函数;每个语义理解单元的输入为前两层单元的输出;
所述自注意力模块Self‑Attention的输入为双向门控循环神经网络BiGRU和语义理解模块FR的叠加输出,用于分配字权重;将输入分化成键矩阵Key、问号矩阵Query、值矩阵Value,其次根据键矩阵与问号矩阵计算相似度矩阵Similarity,再对相似度矩阵归一化,最后将相似度矩阵与值矩阵加权得到注意力矩阵Attention;
所述输出层用于判断输出字是否有错。
2.如权利要求1所述的方法,其特征在于步骤1‑2所述加入标识符是在句首加入“START”起始符,在句中加入“CLS”间隔符,在句末加入“END”终止符。
3.如权利要求1所述的方法,其特征在于步骤1‑2所述固定句长是将长句截断过长部分,短句使用“PAD”符填充至固定句长长度。
4.如权利要求1所述的方法,其特征在于所述双向门控循环神经网络BiGRU的输入为步骤1预处理后的768维向量与自身产出的上一个时刻的隐藏状态,用于提取文本时序信息;
具体是:
所述的双向门控循环单元模型包括两个门控循环单元GRU;
GRU具有重置门R与更新门Z,在t时刻的重置门Rt与t时刻的更新门Zt计算如下所示:其中 是来自步骤1在t时刻的映射成的768维向量,Ht‑1是t‑1时刻的隐藏状态,Wxr是重置门输入权重参数,Wxz是更新门输入权重参数,Whr是重置门隐藏状态权重参数,Whz是更新门隐藏状态权重参数,brr和brz分别是重置门和更新门的偏置参数;σ是Sigmoid函数,控制重置门与更新门的大小范围在0,1之间;
重置门用于生成候选隐藏状态 计算如下表示:
其中Wxh是候选隐藏状态输入权重参数,Whh是候选隐藏状态关于隐藏状态的权重参数,bh是候选隐藏状态偏置参数,tahn是激活函数;
更新门用于生成当前时刻的隐藏状态Ht,计算如下表示:其中 表示哈达玛积,是针对元素的相乘;
两个门控循环单元GRU一个是正向输入,一个是反向输入,其正向隐藏状态 和反向隐藏状态 计算如下表示:其中 表示顺序使用GRU生成隐藏状态,表示逆向使用GRU生成隐藏状态, 表示t时刻正向隐藏状态, 表示t时刻逆向隐藏状态;
隐藏状态H的生成具体如下所示:
其中 表示维度连接操作。
5.如权利要求1所述的方法,其特征在于所述残差网络ResNet计算公式如下表示:所述改进的Sigmoid函数计算公式如下:
其中 表示ResNet在t时刻的输出, 表示语义理解单元在t‑1时刻的输出, 表示语义理解单元在t‑2时刻的输出。
6.如权利要求1所述的方法,其特征在于所述自注意力模块Self‑Attention具体是:(a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩阵(Key),问号矩阵(Query),值矩阵(Value);具体是其中Wq是问号矩阵权重参数,Wk是键矩阵权重参数,Wv是值矩阵权重参数; 表示信息提取模块中的双向循环神经网络BiGRU与FR语义理解模块在t时刻的输出;
(b)根据键矩阵与问号矩阵计算相似度矩阵(Similarity):Similarity(Query,Key)=Query×Key(2.14)(c)对相似度矩阵的每一行归一化
其中aij表示在第i行第j列经过归一化的相似度矩阵的值,n表示相似度矩阵每行元素数目;similarityij表示相似度矩阵在第i行第j列的值, 表示以e为底similarityij为指数的幂运算;
(d)将归一化后相似度矩阵与值矩阵加权得到注意力矩阵(Attention)其中attentionij表示注意力矩阵Attention在第i行第j列的值,valueij表示值矩阵在第i行第j列的值,l表示归一化后相似度矩阵的每列元素数目。
7.如权利要求1所述的方法,其特征在于所述输出层包括两层全连接层Fully Connected Layer与两个激活函数Gelu组成。
8.一种用于执行权利要求1‑7任一项所述方法的基于语序与语义联合分析的中文文本检错系统,其特征在于包括:数据预处理模块,用于将文本数据转化为768维向量;
中文文本检错模块,利用基于语序与语义联合分析的中文文本检错模型实现中文文本检错。