1.一种基于人工智能的音乐教学系统,其特征在于,包括:
数据库,用于存储任一目标对象单独演唱时的音频并通过深度学习模型建立声纹识别模型;
数据获取模块,用于实时获取演唱音频;
数据分析模块,用于将所述演唱音频进行背景声分离,得到人声演唱音频,根据声部演唱任务将人声演唱音频进行声部划分,得到任一声部的人声演唱音频;将任一声部的人声演唱音频输入至预设人声分离模型中,得到所有单个成员的独立演唱音频;所述演唱任务为合唱歌曲中任一声部负责演唱的部分;
选取任一独立演唱音频,将该独立演唱音频按预设帧长进行分帧处理,得到音频帧序列y1,y2,...,yn,n为正整数,采用梅尔频率倒谱变换技术分析处理每一音频帧并提取音频特征,所述音频特征包括帧频谱图峰值最大处的频率序列方差、帧功率和的序列方差的对数和音色特征;
分别以帧频谱图峰值最大处的频率序列方差为横轴,以帧功率和的序列方差的对数值为纵轴,以音色向量特征值为Z轴,构建音频三维坐标系,生成所有独立演唱音频所对应的特征点,选取任一特征点为中心,设置控制半径R,计算控制半径R内的特征点密度P,获取所有特征点的控制半径R内的特征点密度均值,将特征点密度均值标记为MinP,若存在任一特征点半径R内特征点密度P大于MinP,则将该特征点标记为核心点,并以该核心点为中心生成类别簇;
结果生成模块,用于选取最大的类别簇并标记为整体类别簇,将剩余类别簇标记为噪声类别簇,提取所有噪声类别簇所对应的独立演唱音频并分别代入声纹识别模型中,识别不合格目标对象;
设置聚类控制半径R的具体过程为:
以任一特征点为中心,计算该特征点与任一特征点之间的欧氏距离,对每一个欧氏距离进行求和得到u,基于数值u得到控制半径R,计算公式如下:;
;
其中,u为所有特征点的欧氏距离数据值之和,I为任一特征点之间的欧氏距离;
计算控制半径R内的特征点密度的计算公式为:
P=3i/(4πR3);
其中i为控制半径R内存在的特征点数量;
若存在任一类别簇中存在非核心点控制半径R内的密度P同样大于MinP,则将该非核心点生成的类别簇与原有类别簇合并,生成若干类别簇。
2.根据权利要求1所述的一种基于人工智能的音乐教学系统,其特征在于,所述数据分析模块中,对人声演唱音频划分的具体过程为:通过语音识别技术将人声演唱音频转换为文本形式,得到该演唱音频的音频歌词,通过动态时间规整算法将该音频歌词与人声演唱音频进行对齐,获取任一声部的演唱任务,得到该声部的音频歌词,确定该音频歌词在所述人声演唱音频中的时间位置并对该人声演唱音频进行划分,得到目标人声演唱音频,对所述目标人声演唱音频进行音轨分离,得到该声部的人声演唱音频。
3.根据权利要求1所述的一种基于人工智能的音乐教学系统,其特征在于,所述数据分析模块中,人声分离模型构建过程为:通过多路录音设备得到带有单人信号标签的样本多人合唱人声信号;将所述样本合唱人声信号,输入预设人声分离模型中,得到所述样本合唱人声信号的多个单人信号;将所述样本合唱人声信号的多个单人信号与所述样本合唱人声信号对应的多个单人信号标签进行标签置换并进行迭代训练,输出人声分离模型。
4.根据权利要求1所述的一种基于人工智能的音乐教学系统,其特征在于,所述数据分析模块中,提取音频特征的具体过程为:采用梅尔频率倒谱变换技术生成每一音频帧所对应的频谱图,选取每一频谱图中最大峰值所对应的频率,得到频率序列p1,p2,p3,...,pn,通过方差公式该频率序列的方差;选取任一音频帧所对应频谱的所有振幅值,通过计算公式功率和=(振幅值)2,计算得到任一音频帧所对应的功率和,得到功率和序列w1,w2,w3,...,wn,计算该功率和序列的方差对数;获取该子演唱段的梅尔频谱并将其输入至预设神经网络,得到该独立演唱音频的音色向量的特征值。
5.根据权利要求1所述的一种基于人工智能的音乐教学系统,其特征在于,所述结果生成模块中,还包括提取整体类别簇所对应的独立演唱音频,并分别将其带入声纹识别模型中得到该声部演唱中的所有合格目标对象。