利索能及
我要发布
收藏
专利号: 2022108796023
申请人: 苏州科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种麦克风阵列音频的处理方法,其特征在于,包括:S1:获取麦克风阵列采集到的混合语音信号;

S2:根据所述混合语音信号当前帧的前e帧中每帧的门限值加权确定当前帧的门限值;

S3:根据所述当前帧的门限值对当前帧的语音信号进行语音检测,当检测到当前帧的语音信号大于所述当前帧的门限值时,则判定当前帧为非静音帧,暂存当前帧的门限值;

S4:向后移动语言帧,采用S2至S3所述方法预测各帧门限值并对各帧语音信号进行语音检测,将大于每帧门限值的所有帧的语音信号作为非静音语音信号;

S5:对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量;

S6:根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强;

S7:对增强后的说话人语音信号进行降噪处理,输出每路波束上降噪处理后的语音信号。

2.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述根据所述混合语音信号当前帧的前e帧中每帧的门限值加权确定当前帧的门限值为:ηi=wi‑1ηi‑1+wi‑2ηi‑2+…+wi‑eηi‑e式中,ηi是当前帧的门限值,即所述混合语音信号中第i帧音频信号的门限值,(ηi‑1,ηi‑2,...,ηi‑e)为当前帧的前1帧至前e帧每帧音频信号的门限值,即所述混合语音信号中第(i‑1,i‑2,…,i‑e)帧音频信号的门限值,(wi‑1,wi‑2,…,wi‑e)分别为当前帧的前1帧至前e帧每帧音频信号门限值的权重值,即所述混合语音信号中第(i‑1,i‑2,…,i‑e)帧音频信号门限值的权重值,其中,i≥e+1,e代表语音检测时滑动窗的大小。

3.根据权利要求2所述的麦克风阵列音频的处理方法,其特征在于,所述语音检测时滑动窗的大小确定步骤包括:利用不同大小的滑动窗基于H∞准则最大化优化语音检测的准确率:式中,Atarget为基础测试集中的标准音频,Acorrect为语音检测后的音频, 代表语音检测的准确率;

得到语音检测准确率与不同大小的滑动窗的对应关系,选择语音检测准确率满足设定准确率阈值时对应的滑动窗的最小值作为语音检测时滑动窗的大小。

4.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述混合语音信号的第1帧至第e帧的门限值分别为每帧音频信号的能量均值。

5.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述根据所述当前帧的门限值对当前帧的语音信号进行语音检测包括:所述麦克风阵列采集到的混合语音信号为:

式中,xm(t)为麦克风阵列采集到的音频信号, 为麦克风m和声源c的响应函数,D表示声源个数,Sc(t)是声源c对第m个麦克风的输出信号,nm(t)是第m个麦克风的噪声信号,麦克风总数记为M;

利用门限值进行语音检测:

式中,NN、NS分别代表噪声向量矩阵和语音向量矩阵,Xk,i表示所述混合语音信号中第k帧音频谱第i个频点索引的语音信号,L代表第k帧音频谱中的频点个数,η是第k帧的门限值。

6.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量为:式中, 是确定的说话人的导向矢量,NM‑D是噪声特征向量组成的残差矩阵,角标sr代表峰值搜索数目即所选取的说话人人数,θ是球坐标系方位角,是球坐标系仰角,为在 处的说话人的概率。

7.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强包括:式中,Xsr(t,f)为输入的说话人语音信号的傅里叶变换后信号,Ysr(t,f)为通过方位增强后的说话人的傅里叶变换输出信号,即增强后的说话人的语音信号,为在 处的噪声方差矩阵,θsr是说话人在球坐标系的方位角, 为说话人在球坐标系的仰角。

8.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述对增强后的说话人语音信号进行降噪处理包括:采用卷积非负矩阵对所述增强后的说话人语音信号进行降噪:式中,Dpsa为构建的损失函数,Hsr(t,f)是说话人系数矩阵,Ysr(t,f)为增强后的说话人语音信号, 为说话人降噪后的语音信号,F表示范数;

通过梯度搜索算法使得相邻两次损失函数Dpsa相差小于设定差值,得到最佳说话人系数矩阵Hsr_opt(t,f);

根据所述最佳说话人系数矩阵Hsr_opt(t,f)生成最终降噪后的语音信号

9.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述输出每路波束上降噪处理后的语音信号前还包括:将降噪后的说话人语音信号从频域信号转换时域信号:

式中,rSTFT表示为逆短时傅里叶变换, 为降噪后的说话人语音信号的频域信号, 为降噪后的说话人语音信号的时域信号;

采用AGC方法对所述时域信号 进行信号增强:

式中,g(n)为增强后的说话人语音信号,A(n)为动态增益系数, 为增益输入,即降噪后的说话人语音信号的时域信号;

其中,根据目标增益幅值确定所述动态增益系数:

式中,a为增益调节因子,R为目标增益幅值,所述目标增益幅值不大于为‑3dB。

10.一种麦克风阵列拾音胸牌,其特征在于,包括:

信号接收模块:用于利用胸牌中的麦克风阵列拾取音频;

音频处理模块:采用如上述权利要求1‑9任一项所述的麦克风阵列音频的处理方法的步骤,实现麦克风阵列拾取音频的处理;

信号传输模块:用于对所述音频处理模块处理后的音频进行上传;

数据存储模块,用于存储所述音频处理模块处理后的音频。