买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度学习的电话识别方法、装置、设备及介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度学习的电话识别方法、装置、设备及介质

面议

专利号： 2020115649585

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度学习的电话识别方法，其特征在于，所述方法包括：采集客户端的通话语音信号；

提取通话语音信号的特征；

将所述通话语音信号的特征输入语音分类模型，获得通话语音信号的分类，所述分类包括正常电话、骚扰电话和诈骗电话；

其中，所述提取通话语音信号的特征的步骤包括：利用openSMILE提取出所述通话语音信号中的PLP特征；

利用脚本调用提取所述PLP特征对应的config文件来生成通话语音信号所对应的PLP特征数据；

利用Faster RCNN网络对所述PLP特征数据进行特征再提取，得到通话语音信号的特征。

2.如权利要求1所述的基于深度学习的电话识别方法，其特征在于，所述利用openSMILE提取出通话语音信号中的PLP特征的步骤包括：通话语音信号经过采样、加窗、离散傅里叶变换后，取短时语音频谱的实部和虚部的平方和，得到短时功率谱，

2 2

P(f)＝Rx[X(f)]+Im[X(f)]其中，X(f)为通话语音信号的短时频谱，f为通话语音信号的短时频谱的频率轴，Rx[X

2 2

(f)] 为通话语音信号的短时频谱的实部，Im[X(f)]为通话语音信号的短时频谱的虚部，P(f)为通话语音信号的短时功率谱；

对通话语音信号的短时功率谱进行临界频带分析，得到通话语音信号的多个临界带宽听觉谱θ(k)；

通过下式对多个临界带宽听觉谱θ(k)进行等响度预加重，Γ(k)＝E[f0(k)]θ(k),(k＝1,2,…,17)其中，Γ(k)为等响度预加重后的听觉谱，f0(k)表示第k个临界带宽听觉谱的中心频率对应的频率，E[f0(k)]表示频率f0(k)所对应的等响曲线，通过下式获得：对等响度预加重后的多个临界带宽听觉谱θ(k)通过下式进行强度‑响度转换

0.33

φ(k)＝Γ(k)

其中，φ(k)为强度‑响度转换后的多个临界带宽听觉谱；

经过强度‑响度转换后的多个临界带宽听觉谱θ(k)经过傅里叶逆变换，获得傅里叶逆变换后的通话语音信号进行计算全极点模型，并求出通话语音信号的倒谱系数，得到PLP特征。

3.如权利要求2所述的基于深度学习的电话识别方法，其特征在于，所述对通话语音信号的短时功率谱进行临界频带分析的步骤包括：对通话语音信号的短时功率谱通过下式进行临界频带分析，其中，Z(f)为Bark域频率；

将短时功率谱P(f)的频率轴f映射到Bark频率Z，得到17个频带，每个频带的能量谱与加权系数相乘求和之后得到临界带宽听觉谱θ(k)，其中，Z0(k)表示第k个临界带宽听觉谱的中心频率，ψ(Z‑Z0(k))为每个频带对应的加权系数，P(f(z))为每个频带对应的能量谱。

4.如权利要求1所述的基于深度学习的电话识别方法，其特征在于，所述Faster RCNN网络的构建步骤包括：

通过卷积层、RNP网络、综合卷积层和全连接层构建Faster RCNN网络；

通过所述卷积层提取语音特征的特征图；

通过所述RNP网络生成候选区域；

利用softmax判断锚框类型，通过修正锚框获得候选区域；

通过所述综合卷积层提取的特征图和RNP网络获得候选区域，提取出多个候选特征图；