利索能及
我要发布
收藏
专利号: 2019103119477
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音端点检测方法,其特征在于,包括以下步骤:对所接收的语音信号进行滤波并分帧,得到一次信号;

计算每帧所述一次信号的能量和频谱;

根据所述能量构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;

计算每帧所述二次信号的功率谱和谱能量总和;

根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;

以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。

2.如权利要求1所述的语音端点检测方法,其特征在于,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较;

当所述短时谱熵值大于所述检测阈值时,则判定对应所述短时谱熵值的信号帧为语音帧;

当所述短时谱熵值小于或等于所述检测阈值时,判定对应所述短时谱熵值的信号帧为噪声帧。

3.如权利要求1所述的语音端点检测方法,其特征在于,所述计算每帧所述一次信号的能量和频谱,具体为:基于能量的端点检测方法计算每帧所述一次信号的能量E(n);

利用傅里叶变换计算每帧所述一次信号的频谱X(n,l);

其中, n=1,2,3,…,N,所述一次信号为x(n,m),n=1,2,3,…,N,m=

1,2,3,…,M,N为帧数,M为帧长;

X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率。

4.如权利要求3所述的语音端点检测方法,其特征在于,所述根据所述能量构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号,具体为:对每帧所述一次信号的能量E(n)进行归一化处理,并构造加权因子e(n);

利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);

其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));

Xg(n,l)=X(n,l)./|X(n,l)|e(n)。

5.如权利要求4所述的语音端点检测方法,其特征在于,所述计算每帧所述二次信号的功率谱和谱能量总和,具体为:计算每帧所述二次信号的功率谱模值S(n,l)和谱能量总和Y(n);

其中,S(n,l)=|Xg(n,l).*Xg(n,l)|, L为傅里叶变换的长度。

6.如权利要求5所述的语音端点检测方法,其特征在于,所述根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值,具体为:根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概论密度函数P(n,l);

根据每帧所述二次信号的谱概论密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n);

其中,P(n,l)=S(n,l)/Y(n);

7.如权利要求6所述的语音端点检测方法,其特征在于,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:将N帧所述谱熵值中的连续前Z帧谱熵值的倒数的平均值作为语音端点的检测阈值K;

其中, Z<

8.一种语音端点检测装置,其特征在于,包括:预处理模块,用于对所接收的语音信号进行滤波并分帧,得到一次信号;

第一计算模块,用于计算每帧所述一次信号的能量和频谱;

谱加权模块,用于根据所述能量构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;

第二计算模块,用于计算每帧所述二次信号的功率谱和谱能量总和;

第三计算模块,用于根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;

判断模块,用于以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。

9.一种语音端点检测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的语音端点检测方法。