1.一种语音识别的方法,其特征在于,所述方法包括:获取待识别的语音数据;
确定所述语音数据对应的音素数据;
将所述音素数据,输入预先训练的音素文字转换模型,得到所述语音数据对应的文字数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取样本音素数据和对应的样本文字数据;
将所述样本音素数据作为样本输入数据,所述样本文字数据作为样本输出数据,对初始音素文字转换模型进行训练,得到所述音素文字转换模型。
3.根据权利要求1所述方法,其特征在于,所述确定所述语音数据对应的音素数据,包括:基于预先训练的语音声学模型,确定所述语音数据对应的音素数据。
4.根据权利要求1所述的方法,其特征在于,所述音素汉字转换模型,包括编码器模型、解码器模型、注意力机制模型和空间搜索模型;
所述将所述音素数据,输入预先训练的音素汉字转换模型,得到所述语音数据对应的汉字文本,包括:将所述音素数据输入所述编码器模型,得到所述音素数据对应的第一特征码;
将所述第一特征码输入所述注意力机制模型,得到所述音素数据对应的第二特征码;
将所述第二特征码输入所述解码器模型,得到所述音素数据中第1个音素单元对应的文字的特征码;
设置所述音素数据对应的文字顺序号i等于1;
将所述第一特征码和所述音素数据中第i个音素单元对应的文字的特征码,输入所述注意力机制模型,得到所述第i个音素单元对应的文字的融合特征码;
将所述第i个音素单元对应的文字的融合特征码,输入所述空间搜索模型,得到所述第i个音素单元对应的文字;
如果所述第i个音素单元不是所述音素数据中的最后一个音素单元,则将所述第i个音素单元对应的文字和所述第二特征码,输入所述解码器模型,得到所述音素数据中第i+1个音素单元对应的文字的特征码,将i的数值加1,并转至执行将所述第一特征码和所述音素数据中第i个音素单元对应的文字的特征码输入所述注意力机制模型的处理步骤;
如果所述第i个音素单元是所述音素数据中的最后一个音素单元,则将通过空间搜索模型得到的每个音素单元对应的文字,按照对应的音素单元在所述音素数据中的排序,组合在一起,得到所述语音数据对应的文字数据。
5.根据权利要求4所述的方法,其特征在于,所述编码器模型为卷积神经网络CNN,所述解码器模型为卷积神经网络CNN。
6.一种语音识别的装置,其特征在于,所述装置包括:获取模块,用于获取待识别的语音数据;
确定模块,用于确定所述语音数据对应的音素数据;
转换模块,用于将所述音素数据,输入预先训练的音素文字转换模型,得到所述语音数据对应的文字数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模块,用于:获取样本音素数据和对应的样本文字数据;
将所述样本音素数据作为样本输入数据,所述样本文字数据作为样本输出数据,对初始音素文字转换模型进行训练,得到所述音素文字转换模型。
8.根据权利要求6所述方法,其特征在于,所述确定模块,用于:基于预先训练的语音声学模型,确定所述语音数据对应的音素数据。
9.根据权利要求6所述的装置,其特征在于,所述音素汉字转换模型,包括编码器模型、解码器模型、注意力机制模型和空间搜索模型;
所述转换模块,用于:
将所述音素数据输入所述编码器模型,得到所述音素数据对应的第一特征码;
将所述第一特征码输入所述注意力机制模型,得到所述音素数据对应的第二特征码;
将所述第二特征码输入所述解码器模型,得到所述音素数据中第1个音素单元对应的文字的特征码;
设置所述音素数据对应的文字顺序号i等于1;
将所述第一特征码和所述音素数据中第i个音素单元对应的文字的特征码,输入所述注意力机制模型,得到所述第i个音素单元对应的文字的融合特征码;
将所述第i个音素单元对应的文字的融合特征码,输入所述空间搜索模型,得到所述第i个音素单元对应的文字;
如果所述第i个音素单元不是所述音素数据中的最后一个音素单元,则将所述第i个音素单元对应的文字和所述第二特征码,输入所述解码器模型,得到所述音素数据中第i+1个音素单元对应的文字的特征码,将i的数值加1,并转至执行将所述第一特征码和所述音素数据中第i个音素单元对应的文字的特征码输入所述注意力机制模型的处理步骤;
如果所述第i个音素单元是所述音素数据中的最后一个音素单元,则将通过空间搜索模型得到的每个音素单元对应的文字,按照对应的音素单元在所述音素数据中的排序,组合在一起,得到所述语音数据对应的文字数据。
10.根据权利要求9所述的装置,其特征在于,所述编码器模型为卷积神经网络CNN,所述解码器模型为卷积神经网络CNN。