利索能及
我要发布
收藏
专利号: 2018102464973
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种说话人认证方法,应用于服务器,其特征在于,所述方法包括:获取预设说话人的语音信息,其中,所述语音信息不限制内容;

构建3D卷积神经网络架构;

将所述说话人的语音信息输入至所述3D卷积神经网络架构;

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型;

当接收到测试话语时,将测试话语信息与所述存储的所述说话人的语音模型进行对比;

计算所述测试话语信息与所述说话人的语音模型的相似度,当相似度大于一预设值时,则说话人认证成功,当相似度小于一预设值时,则说话人认证失败。

2.如权利要求1所述的说话人认证方法,其特征在于,所述将所述说话人的语音信息输入至所述3D卷积神经网络架构的步骤,具体包括如下步骤:将获取到的所述说话人的语音信息解析成音频堆叠帧;

将所述音频堆叠帧输入至所述3D卷积神经网络架构。

3.如权利要求1所述的说话人认证方法,其特征在于,所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤,具体包括:将所述音频堆叠帧的每个词生成一个向量;

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。

4.如权利要求1所述的说话人认证方法,其特征在于,所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤,具体包括:获取同一个说话人的多个不同的语音信息;

将所述多个不同的语音信息解析成特征图谱并叠加在一起;

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。

5.如权利要求4所述的说话人认证方法,其特征在于,所述计算所述测试话语与所述说话人的语音模型的相似度计算公式为:其中,D1表示测试话语的向量,D2表示说话人模型的向量,分子表示两个向量的点乘积,分母表示两个向量的模的积。

6.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的说话人认证系统,所述说话人认证系统被所述处理器执行时实现如下步骤:获取预设说话人的语音信息,其中,所述语音信息不限制内容;

构建3D卷积神经网络架构;

将所述说话人的语音信息输入至所述3D卷积神经网络架构;

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型;

当接收到测试话语时,将测试话语信息与所述存储的所述说话人的语音模型进行对比;

计算所述测试话语信息与所述说话人的语音模型的相似度,当相似度大于一预设值时,则说话人认证成功,当相似度小于一预设值时,则说话人认证失败,其中,所述通过所述

3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤,具体包括:将所述音频堆叠帧的每个词生成一个向量;

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。

7.如权利要求6所述的服务器,其特征在于,所述将所述说话人的语音信息输入至所述

3D卷积神经网络架构的步骤,具体包括如下步骤:将获取到的所述说话人的语音信息解析成音频堆叠帧;

将所述音频堆叠帧输入至所述3D卷积神经网络架构。

8.如权利要求6所述的服务器,其特征在于,所述计算所述测试话语与所述说话人的语音模型的相似度计算公式为:其中,D1表示测试话语的向量,D2表示说话人模型的向量,分子表示两个向量的点乘积,分母表示两个向量的模的积。

9.如权利要求7所述的服务器,其特征在于,所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤,具体包括:获取同一个说话人的多个不同的语音信息;

将所述多个不同的语音信息解析成特征图谱并叠加在一起;

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有说话人认证系统,所述说话人认证系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的说话人认证方法的步骤。