利索能及
我要发布
收藏
专利号: 2019108770924
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种人工智能面试中获取输入文本的方法,其特征在于,所述方法包括:在所进行的人工智能面试中,调用预设的通用词词库和通用词发音对照表对输入语音进行校正,并对校正所得语音进行语音识别获得识别文本;

通过对所述识别文本进行分词处理获得分词集合;

对所述分词集合中的分词,分别计算所述分词相对左侧分词和右侧分词的互信息值,且根据所得互信息值定位所述识别文本中的同音错误词,所述互信息值包括左互信息值和右互信息值;

从预设的同音词词库中提取目标词对所述同音错误词进行替换,获得所述智能面试中的输入文本,所述目标词的读音与所述同音错误词相同。

2.根据权利要求1所述的方法,其特征在于,在所述通过对所述识别文本进行分词处理获得分词集合之前,所述方法还包括:根据预先设置的语气词词典,查找所述识别文本中重复出现的语气词;

将所述重复出现的语气词从所述识别文本中删除。

3.根据权利要求1所述的方法,其特征在于,所述根据所得互信息值定位所述识别文本中的同音错误词,包括:根据所述分词集合中各分词对应的左互信息值和右互信息值,分别计算所述分词集合关于所述左互信息值和右互信息值的均值以及标准差;

分别对所述左互信息值和右互信息值的均值以及标准差进行差值运算,获得所述分词集合关于所述左互信息值和右互信息值的阈值;

获取所述分词集合中左互信息值和右互信息值小于对应阈值的分词为同音错误词。

4.根据权利要求3所述的方法,其特征在于,在所述获取所述分词集合中左互信息值和右互信息值小于对应阈值的分词获取为同音错误词之前,所述方法还包括:根据为所述左互信息值和右互信息值所赋予的权重,对所述分词集合关于所述左互信息值和右互信息值的阈值进行加权和运算,获得所述分词集合对应的互信息阈值;

所述获取所述分词集合中左互信息值和右互信息值小于对应阈值的分词获取为同音错误词,包括:对所述分词集合中的分词,按照所述权重对所述分词对应的左互信息值和右互信息值进行加权和运算,获得所述分词的互信息值;

获取所述互信息值小于所述互信息阈值的分词为同音错误词。

5.根据权利要求1所述的方法,其特征在于,所述从预设的同音词词库中提取目标词对所述同音错误词进行替换,包括:根据所述同音错误词所对应的拼音,从所述同音词词库中提取与所述同音错误词同音的若干候选词;

通过所述候选词逐一对所述同音错误词进行替换,并计算所述候选词对应的互信息值;

提取互信息值最高的候选词作为目标词对所述同音错误词进行替换。

6.根据权利要求5所述的方法,其特征在于,所述根据所述同音错误词所对应的拼音,从所述同音词词库中提取与所述同音错误词同音的若干候选词,包括:根据所述同音错误词的拼音,在所述同音词词库中查询所述拼音对应的索引值,所述索引值对应于所述同音词词库中设置的拼音音节表,所述拼音音节表用于实现多个同音词语的映射;

根据所查找到的索引值,在所述拼接音节表中查询与所述同音错误词同音的若干候选词。

7.一种人工智能面试中获取输入文本的装置,其特征在于,所述装置包括:语音识别模块,用于在所进行的人工智能面试中,调用预设的通用词词库和通用词发音对照表对输入语音进行校正,并对校正所得语音进行语音识别获得识别文本;

分词处理模块,用于通过对所述识别文本进行分词处理获得分词集合;

同音错误词定位模块,用于对所述分词集合中的分词,分别计算所述分词相对左侧分词和右侧分词的互信息值,且根据所得互信息值定位所述识别文本中的同音错误词,所述互信息值包括左互信息值和右互信息值;

输入文本获取模块,用于从预设的同音词词库中提取目标词对所述同音错误词进行替换,获得所述智能面试中的输入文本,所述目标词的读音与所述同音错误词相同。

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:语气词查找模块,用于根据预先设置的语气词词典,查找所述识别文本中重复出现的语气词;

语气词删除模块,用于将所述重复出现的语气词从所述识别文本中删除。

9.一种人工智能面试中获取输入文本的设备,其特征在于,包括:存储器,存储有计算机可读指令;

处理器,读取存储器存储的计算机可读指令,以执行权利要求1-6中的任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-6中的任一项所述的方法。