1.一种基于深度学习的电话识别方法,其特征在于,所述方法包括:采集客户端的通话语音信号;
提取通话语音信号的特征;
将所述通话语音信号的特征输入语音分类模型,获得通话语音信号的分类,所述分类包括正常电话、骚扰电话和诈骗电话;
其中,所述提取通话语音信号的特征的步骤包括:利用openSMILE提取出所述通话语音信号中的PLP特征;
利用脚本调用提取所述PLP特征对应的config文件来生成通话语音信号所对应的PLP特征数据;
利用Faster RCNN网络对所述PLP特征数据进行特征再提取,得到通话语音信号的特征。
2.如权利要求1所述的基于深度学习的电话识别方法,其特征在于,所述利用openSMILE提取出通话语音信号中的PLP特征的步骤包括:通话语音信号经过采样、加窗、离散傅里叶变换后,取短时语音频谱的实部和虚部的平方和,得到短时功率谱,
2 2
P(f)=Rx[X(f)]+Im[X(f)]其中,X(f)为通话语音信号的短时频谱,f为通话语音信号的短时频谱的频率轴,Rx[X
2 2
(f)] 为通话语音信号的短时频谱的实部,Im[X(f)]为通话语音信号的短时频谱的虚部,P(f)为通话语音信号的短时功率谱;
对通话语音信号的短时功率谱进行临界频带分析,得到通话语音信号的多个临界带宽听觉谱θ(k);
通过下式对多个临界带宽听觉谱θ(k)进行等响度预加重,Γ(k)=E[f0(k)]θ(k),(k=1,2,…,17)其中,Γ(k)为等响度预加重后的听觉谱,f0(k)表示第k个临界带宽听觉谱的中心频率对应的频率,E[f0(k)]表示频率f0(k)所对应的等响曲线,通过下式获得:对等响度预加重后的多个临界带宽听觉谱θ(k)通过下式进行强度‑响度转换
0.33
φ(k)=Γ(k)
其中,φ(k)为强度‑响度转换后的多个临界带宽听觉谱;
经过强度‑响度转换后的多个临界带宽听觉谱θ(k)经过傅里叶逆变换,获得傅里叶逆变换后的通话语音信号进行计算全极点模型,并求出通话语音信号的倒谱系数,得到PLP特征。
3.如权利要求2所述的基于深度学习的电话识别方法,其特征在于,所述对通话语音信号的短时功率谱进行临界频带分析的步骤包括:对通话语音信号的短时功率谱通过下式进行临界频带分析,其中,Z(f)为Bark域频率;
将短时功率谱P(f)的频率轴f映射到Bark频率Z,得到17个频带,每个频带的能量谱与加权系数相乘求和之后得到临界带宽听觉谱θ(k),其中,Z0(k)表示第k个临界带宽听觉谱的中心频率,ψ(Z‑Z0(k))为每个频带对应的加权系数,P(f(z))为每个频带对应的能量谱。
4.如权利要求1所述的基于深度学习的电话识别方法,其特征在于,所述Faster RCNN网络的构建步骤包括:
通过卷积层、RNP网络、综合卷积层和全连接层构建Faster RCNN网络;
通过所述卷积层提取语音特征的特征图;
通过所述RNP网络生成候选区域;
利用softmax判断锚框类型,通过修正锚框获得候选区域;
通过所述综合卷积层提取的特征图和RNP网络获得候选区域,提取出多个候选特征图;
通过所述全连接层综合多个候选特征图。
5.如权利要求1所述的基于深度学习的电话识别方法,其特征在于,所述语音分类模型为Transformer网络。
6.如权利要求5所述的基于深度学习的电话识别方法,其特征在于,所述Transformer网络的构建步骤包括
通过编码器和解码器构建Transformer网络;
通过所述编码器对所述Faster RCNN网络提取的通话语音信号的特征进行编码得到上下文语义向量;
通过所述解码器对得到的上下文语义向量进行数据解码,通过一层softmax得出分类类别。
7.如权利要求5所述的基于深度学习的电话识别方法,其特征在于,还包括:将Faster RCNN和Transformer网络组合为语音类别识别网络,将语音类别识别网络上传至云端。
8.一种基于深度学习的电话识别装置,其特征在于,所述装置包括:采集模块,采集客户端的通话语音信号;
特征提取模块,提取采集模块采集的通话语音信号的特征;
分类模块,构建语音分类模型,将特征提取模块提取的通话语音信号的特征输入语音分类模型,获得通话语音信号的分类,所述分类包括正常电话、骚扰电话和诈骗电话;
其中,所述特征提取模块包括:第一特征提取子模块,利用openSMILE提取出通话语音信号中的PLP特征;
特征数据生成子模块,利用脚本调用第一特征提取子模块提取的PLP特征对应的config文件来生成通话语音信号所对应的PLP特征数据;
第二特征提取子模块,利用Faster RCNN网络对特征数据生成子模块生成个的PLP特征数据进行特征再提取。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于深度学习的电话识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于深度学习的电话识别方法。