利索能及
我要发布
收藏
专利号: 2019109782312
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种中文语法错误的识别方法,其特征在于,包括:

获取待识别话术;

计算所述待识别话术中每个字对应的初始特征组;

将所述初始特征组输入至双向循环神经网络中得到每个字对应的中间特征;

将每个字对应的所述中间特征按照所述待识别话术中各个字的顺序进行拼接,得到结果特征;

将所述结果特征输入至LR分类器,得到所述待识别话术的识别指标,其中,所述识别指标用于表征所述待识别话术包括语法错误的概率;以及根据所述识别指标确定所述待识别话术是否包括语法错误。

2.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,其中:计算所述字的词向量的步骤包括:根据语义对所述待识别话术进行分词,得到多个第一词语,确定所述第一词语的词向量,其中,所述字的词向量为其所属的第一词语的词向量;

计算所述字的词嵌入向量的步骤包括:在所述待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对所述第一话术进行分词,得到多个第二词语,每两个相邻的所述第二词语具有一个相同的字,确定所述第二词语的词向量,其中,所述字的词嵌入向量为其所属的第二词语的词向量,不同字的所述词嵌入向量不同;

计算所述字的词性标识的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据所述第一词语的词性在所述第一对应关系中查找到第一词标识,根据所述字的字位置在所述第二对应关系中查找到第一位置标识,其中,所述字位置包括所述字在其所述第一词语的词首位和非词首位,所述字的词性标识包括所述第一词标识和所述第一位置标识;

采用以下公式计算所述字的词性离散概率:

其中,所述字的词性离散概率为N*1的数组,P[i]为所述数组的第i个元素,xi为所述字在语料库中以第i种所述词性标识出现的次数,xS为所述字在所述语料库中出现的次数,N为所述词性标识的种类;

采用以下公式计算所述字的PMI分数:

其中,w1和w2为相邻的两个第三词语,w1为所述相邻的两个第三词语中的前一个,w2为所述相邻的两个第三词语中的后一个,p(w1,w2)为所述相邻的两个第三词语组成的词组在所述语料库中出现的次数,p(w1)为所述w1在所述语料库中出现的次数,p(w2)为所述w2在所述语料库中出现的次数,PMI(w2)为所述w2的PMI分数,所述字的PMI分数为其所属的第三词语的PMI分数,不同字的所述PMI分数不同,所述第三词语为根据语义对所述第一话术进行分词后得到的词语;

计算所述字的非相邻词汇搭配特征的步骤包括:在所述待识别话术中确定每个所述第一词语的依存词,所述字的非相邻词汇搭配特征包括所述字所属的第一词语的词向量、所述第一词语的依存词的词向量和所述第一词语与其依存词的依存关系标识。

3.根据权利要求1所述的中文语法错误的识别方法,其特征在于,

预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1的自然数;

根据所述识别指标确定所述待识别话术是否包括语法错误的步骤具体为:

判断M个识别指标中指示所述待识别话术包括语法错误的识别指标是否大于或等于L个;

若M个识别指标中指示所述待识别话术包括语法错误的识别指标大于或等于L个,则确定所述待识别话术包括语法错误,其中,L大于0且小于或等于M。

4.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述方法还包括:在获取待识别话术之前,接收待识别文本;将所述待识别文本分割为多个所述待识别话术;

在确定所述待识别文本中的每个待识别话术是否包括语法错误之后,将所述待识别文本中包括语法错误的待识别话术按照所述识别指标进行排序,删除识别指标较低的预定百分比的所述待识别话术,得到错误话术组;

预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别文本对应的所述错误话术组,则可得到M个错误话术组,其中,M为大于1的自然数;

合并所述M个错误话术组,以最终确定所述待识别文本包括语法错误的话术。

5.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述识别指标为0~1之间的数值,根据所述识别指标确定所述待识别话术是否包括语法错误的步骤包括:判断所述识别指标是否大于0.5;

若所述识别指标大于0.5,则确定所述待识别话术包括语法错误;

若所述识别指标小于或等于0.5,则确定所述待识别话术不包括语法错误。

6.一种中文语法错误的识别装置,其特征在于,包括:

获取模块,用于获取待识别话术;

计算模块,用于计算所述待识别话术中每个字对应的初始特征组;

第一处理模块,用于将所述初始特征组输入至双向循环神经网络中得到每个字对应的中间特征;

第二处理模块,用于将每个字对应的所述中间特征按照所述待识别话术中各个字的顺序进行拼接,得到结果特征;

第三处理模块,用于将所述结果特征输入至LR分类器,得到所述待识别话术的识别指标,其中,所述识别指标用于表征所述待识别话术包括语法错误的概率;以及确定模块,用于根据所述识别指标确定所述待识别话术是否包括语法错误。

7.根据权利要求6所述的中文语法错误的识别装置,其特征在于,所述初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,所述计算模块在计算所述字的词向量时,执行的步骤包括:根据语义对所述待识别话术进行分词,得到多个第一词语,确定所述第一词语的词向量,其中,所述字的词向量为其所属的第一词语的词向量;

所述计算模块在计算所述字的词嵌入向量时,执行的步骤包括:在所述待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对所述第一话术进行分词,得到多个第二词语,每两个相邻的所述第二词语具有一个相同的字,确定所述第二词语的词向量,其中,所述字的词嵌入向量为其所属的第二词语的词向量,不同字的所述词嵌入向量不同;

所述计算模块在计算所述字的词性标识时,执行的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据所述第一词语的词性在所述第一对应关系中查找到第一词标识,根据所述字的字位置在所述第二对应关系中查找到第一位置标识,其中,所述字位置包括所述字在其所述第一词语的词首位和非词首位,所述字的词性标识包括所述第一词标识和所述第一位置标识;

所述计算模块采用以下公式计算所述字的词性离散概率:

其中,所述字的词性离散概率为N*1的数组,P[i]为所述数组的第i个元素,xi为所述字在语料库中以第i种所述词性标识出现的次数,xS为所述字在所述语料库中出现的次数,N为所述词性标识的种类;

所述计算模块采用以下公式计算所述字的PMI分数:

其中,w1和w2为相邻的两个第三词语,w1为所述相邻的两个第三词语中的前一个,w2为所述相邻的两个第三词语中的后一个,p(w1,w2)为所述相邻的两个第三词语组成的词组在所述语料库中出现的次数,p(w1)为所述w1在所述语料库中出现的次数,p(w2)为所述w2在所述语料库中出现的次数,PMI(w2)为所述w2的PMI分数,所述字的PMI分数为其所属的第三词语的PMI分数,不同字的所述PMI分数不同,所述第三词语为根据语义对所述第一话术进行分词后得到的词语;

所述计算模块计算所述字的非相邻词汇搭配特征时,执行的步骤包括:在所述待识别话术中确定每个所述第一词语的依存词,所述字的非相邻词汇搭配特征包括所述字所属的第一词语的词向量、所述第一词语的依存词的词向量和所述第一词语与其依存词的依存关系标识。

8.根据权利要求6所述的中文语法错误的识别装置,其特征在于,

所述中文语法错误的识别装置还包括存储模块,所述存储模块用于存储预置的双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1的自然数;

所述确定模块还用于判断M个识别指标中指示所述待识别话术包括语法错误的识别指标是否大于或等于L个;其中,若M个识别指标中指示所述待识别话术包括语法错误的识别指标大于或等于L个,则所述确定模块确定所述待识别话术包括语法错误,其中,L大于0且小于或等于M。

9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。