利索能及
我要发布
收藏
专利号: 2023112305758
申请人: 中山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种改进原型网络的训练方法,其特征在于,所述方法包括:获取音频样本集的声学图谱和真实原型特征表示;

构建包括时域注意力卷积模块、频域注意力卷积模块、循环神经网络层和全连接层的改进原型网络,所述时域注意力卷积模块和频域注意力卷积模块分别提取所述声学图谱的时域注意力特征和频域注意力特征,所述循环神经网络层根据所述声学图谱、时域注意力特征和频域注意力特征计算时间依赖特征,所述全连接层根据所述时间依赖特征计算训练原型特征表示;

把所述声学图谱输入所述改进原型网络得到训练原型特征表示;

根据所述训练原型特征表示与真实原型特征表示计算原型网络损失,所述原型网络损失用于更新所述改进原型网络的网络参数,所述原型网络损失不大于预设损失阈值且训练迭代次数达到预设次数时,训练完成输出用于提取音频的原型特征表示的改进原型网络。

2.根据权利要求1所述的训练方法,其特征在于,所述原型网络损失的计算过程包括:根据训练原型特征表示f(x;θ)和真实原型特征表示my计算原型损失lossprototype=||f(x;θ)‑my||;

计算所述训练原型特征表示f(x;θ)和真实原型特征表示my的欧氏距离d(f(x;θ),my);

根据训练原型特征表示f(x;θ)和音频的真实类别y计算基于距离的交叉熵判别损失lossdiscriminative=‑log p(y|x),p(y|x)表示音频样本(x,y)属于类别y的概率,计算所述原型网络损失loss=lossdiscriminative+λlossprototype,λ表示所述原型损失的权重参数。

3.根据权利要求1所述的训练方法,其特征在于,所述方法还包括更新已知音频类别的原型特征表示,具体包括:获取属于同一类别i所有音频样本的原型特征表示f(xi;θ);

计算类别i的原型特征表示 Si表示属于类别i的所有音频样本集合。

4.一种用于开放环境的声音分类方法,其特征在于,包括:采集待测音频的声学图谱;

把待测音频的声学图谱输入由权利要求1~3任一项所述的训练方法训练的改进原型网络,得到所述待测音频的原型特征表示;

计算所述待测音频的原型特征表示与已知音频类别原型特征表示的欧氏距离;

根据所述欧氏距离计算所述待测音频与已知音频类别的匹配分数;

根据所述匹配分数确定所述待测音频的音频类别。

5.根据权利要求4所述的声音分类方法,其特征在于,所述匹配分数的计算包括:基于所述欧氏距离利用softmax函数计算所述待测音频属于音频类别i的概率值logisti(x),所述概率值记为待测音频x属于已知音频类别i的匹配分数。

6.根据权利要求4所述的声音分类方法,其特征在于,根据所述匹配分数确定所述待测音频的音频类别包括:在所述待测音频与已知音频类别的匹配分数中确定最大值,所述最大值大于预设分数阈值时,确定所述待测音频属于所述最大值对应的音频类别,否则所述待测音频属于未知音频类别。

7.一种基于声音分类的汽车状态检测方法,其特征在于,包括:采集汽车运行过程中的工作音频,计算工作音频的声音图谱;

把所述声学图谱输入由权利要求1~3任一项所述的训练方法训练的改进原型网络,得到工作音频的原型特征表示;

计算所述原型特征表示与已知音频类别原型特征表示的欧氏距离;

根据所述欧氏距离计算所述工作音频与已知音频类别的匹配分数;

根据所述匹配分数确定所述工作音频的音频类别,根据所述音频类别判断零部件及其状态。

8.一种改进原型网络的训练装置,其特征在于,包括:样本获取单元,用于获取音频样本集的声学图谱和真实原型特征表示;

网络构建单元,用于构建包括时域注意力卷积模块、频域注意力卷积模块、循环神经网络层和全连接层的改进原型网络,所述时域注意力卷积模块和频域注意力卷积模块分别提取所述声学图谱的时域注意力特征和频域注意力特征,所述循环神经网络层根据所述声学图谱、时域注意力特征和频域注意力特征计算时间依赖特征,所述全连接层根据所述时间依赖特征计算训练原型特征表示;

损失计算单元,用于根据所述训练原型特征表示与真实原型特征表示计算原型网络损失;

网络更新单元,用于根据所述原型网络损失更新所述改进原型网络的网络参数,所述原型网络损失不大于预设损失阈值且训练迭代次数达到预设次数时,训练完成输出用于提取音频的原型特征表示的所述改进原型网络。

9.一种声音分类装置,其特征在于,包括:

数据采集单元,用于采集待测音频的声学图谱;

原型特征提取单元,内嵌有利用利用权利要求8所述的训练装置训练得到的改进原型网络,用于提取所述待测音频的原型特征表示;

特征距离计算单元,用于计算待测音频的原型特征表示与已知音频类别原型特征表示的欧氏距离;

匹配单元,用于根据所述距离计算所述待测音频与已知音频类别的匹配分数,根据所述匹配分数确定所述待测音频的音频类别。

10.一种电子设备,其特征在于,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1~3任一项所述的训练方法,或,执行如权利要求4~6任一项所述的声音分类方法。