利索能及
我要发布
收藏
专利号: 2024112780722
申请人: 北京得胜智能电子科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种智能音频处理方法,其特征在于,所述方法包括:S1、根据会议室的空间布局和音频系统方案,得到音频系统的初始参数;

S2、会议开始,根据演讲人员的音频数据,得到演讲人员的声纹特征;

S3、根据所述演讲人员的声纹特征,与音频系统中保存的声纹特征进行对比,按对比规则,提取音频系统的参数,对比规则如下:规则1:若所述演讲人员的声纹特征符合所述音频系统中保存的声纹特征,则提取符合所述音频系统中保存的声纹特征的演讲人员的系统参数作为音频系统的参数;

规则2:若所述演讲人员的声纹特征不符合所述音频系统中保存的声纹特征,则提取所述音频系统的初始参数作为音频系统的参数并保存所述演讲人员的声纹特征;

S4、将所述音频系统的参数输入到所述音频系统中,通过会议室的声采集系统,得到所述会议室的声场参数;

S5、若所述声场参数符合要求,则流程结束;若所述声场参数不符合要求,则进入下一步骤;

S6、将所述声场参数输入到调节模型中,得到调节后的参数;

S7、将调节后的参数代替所述音频系统的参数,重复S4 S7,得到所述演讲人员的最终~系统参数;

S8、将所述演讲人员的声纹特征与所述演讲人员的最终系统参数进行一一对应并保存。

2.根据权利要求1所述的智能音频处理方法,其特征在于,所述S2中根据演讲人员的音频数据,得到演讲人员的声纹特征,包括:S21、根据演讲人员的音频数据,进行所述演讲人员的音频数据的预处理,得到预处理后的音频数据;

S22、将所述预处理后的音频数据进行分帧处理,得到N个预处理后的音频数据样本;

S23、根据所述N个预处理后的音频数据样本,通过梅尔滤波器处理,得到预处理后的音频数据样本的梅尔频率倒谱系数特征;

S24、根据所述预处理后的音频数据样本的梅尔频率倒谱系数特征,选择具有代表性的特征形成特征合集,得到演讲人员的声纹特征。

3.根据权利要求1所述的智能音频处理方法,其特征在于,所述S4中会议室的声采集系统,包括多个标准全向麦克风,所述标准全向麦克风分布于会议室中。

4.根据权利要求3所述的智能音频处理方法,其特征在于,所述标准全向麦克风分布于会议室前后左右四个墙面上,且高度为1m 1.5m。

~

5.根据权利要求1所述的智能音频处理方法,其特征在于,所述S4中会议室的声场参数,包括传声增益、声场不均匀度和语音传输指数。

6.根据权利要求5所述的智能音频处理方法,其特征在于,所述S6中将所述声场参数输入到调节模型中,得到调节后的参数,包括:S61、根据所述声场参数,进行标准化处理,得到标准化的传声增益、标准化的声场不均匀度和标准化的语音传输指数;

S62、根据所述标准化的传声增益,输入到调节模型中,得到调节后的所述音频系统的整体放大倍数;

S63、根据所述标准化的声场不均匀度,输入到调节模型中,得到调节后的音频系统中可调指向性音箱的指向性角度和音箱增益;

S64、根据标准化的语音传输指数,输入到调节模型中,得到调节后的音频系统的延时参数;

S65、根据所述调节后的所述音频系统的整体放大倍数、所述调节后的音频系统中可调指向性音箱的指向性角度和音箱增益和所述调节后的音频系统的延时参数,综合处理后,得到调节后的参数。

7.根据权利要求6所述的智能音频处理方法,其特征在于,所述调节模型的训练过程包括:S71、收集所述音频系统的参数和所述会议室的声场参数,得到训练数据集;

S72、根据所述训练数据集,选择目标函数,得到模型预测输出;

S73、根据所述模型预测输出和所述训练数据集,得到模型的损失函数值;

S74、根据所述模型的损失函数值,采用梯度下降法,得到目标函数的参数值;

S75、将所述目标函数的参数值输入到所述目标函数中,根据所述训练数据集,验证模型的准确性;

S76、根据所述模型的准确性,确定最终的目标函数的参数值,得到所述调节模型。

8.根据权利要求1所述的智能音频处理方法,其特征在于,所述S7中重复S4 S7,得到所~述演讲人员的最终系统参数,包括:

若重复S4 S7次数不超过10次,选取最后1次的调节后的参数作为所述演讲人员的最终~系统参数;

若重复S4 S7次数超过10次,流程结束,选取10次中离要求最近的参数作为所述演讲人~员的最终系统参数。

9.一种智能音频处理系统,其特征在于,所述系统包括:初始模块,用于根据会议室的空间布局和音频系统方案,得到音频系统的初始参数;

特征提取模块,用于根据演讲人员的音频数据,得到演讲人员的声纹特征;

对比模块,用于根据所述演讲人员的声纹特征,与音频系统中保存的声纹特征进行对比,按对比规则,提取音频系统的参数,对比规则如下:规则1:若所述演讲人员的声纹特征符合所述音频系统中保存的声纹特征,则提取符合所述音频系统中保存的声纹特征的演讲人员的系统参数作为音频系统的参数;

规则2:若所述演讲人员的声纹特征不符合所述音频系统中保存的声纹特征,则提取所述音频系统的初始参数作为音频系统的参数并保存所述演讲人员的声纹特征;

第一获取模块,用于将所述音频系统的参数输入到所述音频系统中,通过会议室的声采集系统,得到所述会议室的声场参数;

判断模块,用于若所述声场参数符合要求,则流程结束;若所述声场参数不符合要求,则进入下一步骤;

第二获取模块,用于将所述声场参数输入到调节模型中,得到调节后的参数;

调节模块,用于将调节后的参数代替所述音频系统的参数,得到所述演讲人员的最终系统参数;

保存模块,用于将所述演讲人员的声纹特征与所述演讲人员的最终系统参数进行一一对应并保存。

10.一种智能音频处理装置,其特征在于,所述装置包括:音频处理器、可调指向性音箱、话筒、声采集系统、存储器和存储在所述音频处理器上并可在所述音频处理器上运行的智能音频处理适配程序,所述智能音频处理适配程序被所述音频处理器执行时,实现所述智能音频处理方法中的步骤。