利索能及
我要发布
收藏
专利号: 2022113910283
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,包括以下步骤:步骤一:数据预处理;

S11,对音频数据进行时间片划分,将一段音频划分为长度固定的N个时间片,同时记录每个时间片对应的标签;

S12,将得到的每个时间片的音频数据转化为梅尔频谱图像,然后对图像进行正则化处理,将像素点的取值范围规则化,得到正则化的梅尔频谱图像;

步骤二:数据的特征提取;

使用卷积神经网络对得到的正则化的梅尔频谱图像进行特征提取,以得到梅尔频谱的图像特征,再将提取的特征从二维映射为一维的形式,然后组合标签形成时间片梅尔频谱图像特征标签对;

步骤三:利用改进的CRBM模型建模标签相关性特征,CRBM模型为条件受限玻尔兹曼机;

S31,根据公式(1)提出的能量函数构建改进的CRBM模型;

  

(1);

式中,x表示输入的频谱特征数据,y表示x对应的标签,其也是在预测阶段的期望输出,h表示希望得到的特征表达,s是引入的附加变量,W、Wy、β、μ、b是训练参数;

S32,根据公式(1)获得条件联合概率分布,如公式(2)所示;

     (2);

式中,Z表示配分函数;

S33,基于公式(2)得到公式(3)和(4),并根据公式(3)获得h的条件概率 ;

根据公式(4)获得h的每一个分量的激活概率;根据公式(2)、(3)得到y基于x和h的条件概率公式(5);

     (3);

     (4);

(5);

S34,基于公式(2)和(4)得到公式(6)和(7),根据公式(6)获得s的每一个分量的激活概率;根据公式(7)获得y的每一个分量的激活概率;

    (6);

    (7);

式中,N表示高斯分布;

步骤四:利用相关性特征训练分类为目标的改进CRBM模型,输出预测的乐器标签;

S41,根据公式(8)构造目标函数,并利用其训练改进的CRBM模型;

Loss = log(p(y|x) + Rank‑Loss(y|x) + σ||y||l1     (8);

式中,log(p(y|x) 表示似然函数,Rank‑Loss(y|x) 表示排序损失函数, ||y||l1表示l1正则化,σ为超参数;

S42,基于公式(3)、(4)、(6)和(7),使用Gibbs采样获取公式(8)中的似然函数的梯度公式(9),根据公式(9)计算公式(8)的梯度,根据公式(8)的梯度来训练改进的CRBM模型,再通过训练得到包含有标签相关性的特征表达h和标签的条件概率;

  

(9);

式中,E表示数学期望,θ表示参数集合,两个数学期望根据公式(4)、(6)和(7)使用Gibbs采样获得;

S43,在完成改进的CRBM训练后,面对需要预测乐器类别的输入,根据公式(10)计算使log(p(y|x)最大的标签y,由此根据基于改进的CRBM的乐器自动识别模型输出预测的乐器标签,获得乐器自动识别模型;

  

(10)。

2.根据权利要求1所述的一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,在步骤一的S12中,使用开源工具将音频数据转化为梅尔频谱图像。

3.根据权利要求1或2所述的一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,在步骤二中,使用经过在ImageNet数据集上预训练的神经网络ResNet101来提取梅尔频谱图像的特征。