1.一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,包括以下步骤:步骤一:数据预处理;
S11,对音频数据进行时间片划分,将一段音频划分为长度固定的N个时间片,同时记录每个时间片对应的标签;
S12,将得到的每个时间片的音频数据转化为梅尔频谱图像,然后对图像进行正则化处理,将像素点的取值范围规则化,得到正则化的梅尔频谱图像;
步骤二:数据的特征提取;
使用卷积神经网络对得到的正则化的梅尔频谱图像进行特征提取,以得到梅尔频谱的图像特征,再将提取的特征从二维映射为一维的形式,然后组合标签形成时间片梅尔频谱图像特征标签对;
步骤三:利用改进的CRBM模型建模标签相关性特征,CRBM模型为条件受限玻尔兹曼机;
S31,根据公式(1)提出的能量函数构建改进的CRBM模型;
(1);
式中,x表示输入的频谱特征数据,y表示x对应的标签,其也是在预测阶段的期望输出,h表示希望得到的特征表达,s是引入的附加变量,W、Wy、β、μ、b是训练参数;
S32,根据公式(1)获得条件联合概率分布,如公式(2)所示;
(2);
式中,Z表示配分函数;
S33,基于公式(2)得到公式(3)和(4),并根据公式(3)获得h的条件概率 ;
根据公式(4)获得h的每一个分量的激活概率;根据公式(2)、(3)得到y基于x和h的条件概率公式(5);
(3);
(4);
(5);
S34,基于公式(2)和(4)得到公式(6)和(7),根据公式(6)获得s的每一个分量的激活概率;根据公式(7)获得y的每一个分量的激活概率;
(6);
(7);
式中,N表示高斯分布;
步骤四:利用相关性特征训练分类为目标的改进CRBM模型,输出预测的乐器标签;
S41,根据公式(8)构造目标函数,并利用其训练改进的CRBM模型;
Loss = log(p(y|x) + Rank‑Loss(y|x) + σ||y||l1 (8);
式中,log(p(y|x) 表示似然函数,Rank‑Loss(y|x) 表示排序损失函数, ||y||l1表示l1正则化,σ为超参数;
S42,基于公式(3)、(4)、(6)和(7),使用Gibbs采样获取公式(8)中的似然函数的梯度公式(9),根据公式(9)计算公式(8)的梯度,根据公式(8)的梯度来训练改进的CRBM模型,再通过训练得到包含有标签相关性的特征表达h和标签的条件概率;
(9);
式中,E表示数学期望,θ表示参数集合,两个数学期望根据公式(4)、(6)和(7)使用Gibbs采样获得;
S43,在完成改进的CRBM训练后,面对需要预测乐器类别的输入,根据公式(10)计算使log(p(y|x)最大的标签y,由此根据基于改进的CRBM的乐器自动识别模型输出预测的乐器标签,获得乐器自动识别模型;
(10)。
2.根据权利要求1所述的一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,在步骤一的S12中,使用开源工具将音频数据转化为梅尔频谱图像。
3.根据权利要求1或2所述的一种基于深度概率图神经网络的乐器自动识别方法,其特征在于,在步骤二中,使用经过在ImageNet数据集上预训练的神经网络ResNet101来提取梅尔频谱图像的特征。