利索能及
我要发布
收藏
专利号: 2021110682717
申请人: 俞加利
专利类型:发明专利
专利状态:已下证
更新日期:2024-09-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种音频长时指纹提取方法,其特征在于:该提取方法包括以下步骤:S1:输入音频信号(PCM),并重采样音频信号;

S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;

S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;

S4:对更新后的帧频谱进行帧级短时特征提取;

S5:处理帧级短时特征,并提取帧组长时特征。

2.根据权利要求1所述的一种音频长时指纹提取方法,其特征在于:所述S1中,重采样的具体操作为提取110Hz‑7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真。

3.根据权利要求2所述的一种音频长时指纹提取方法,其特征在于:所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱。

4.根据权利要求3所述的一种音频长时指纹提取方法,其特征在于:所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,得到更新后的帧频谱:M=0.25M1+0.75M2+M3+0.75M4+0.25M5;其中滑动窗口每次步进一帧。

5.根据权利要求4所述的一种音频长时指纹提取方法,其特征在于:所述S4中,帧级短时特征提取的具体操作步骤为:

A1:对数频率域子带划分帧频谱;

A2:计算子带平均谱能量;

A3:对子带谱能量L2正则化处理得到帧级短时特征。

6.根据权利要求5所述的一种音频长时指纹提取方法,其特征在于:所述A1中,对数频率域子带划分帧频谱即将帧频谱中的频率f转换为对数频率F=log2(f),在对数频率域,将目标频率范围log2(110)~log2(7000)划分为宽度相等的16个子带。

7.根据权利要求6所述的一种音频长时指纹提取方法,其特征在于:所述A2中,计算子带平均谱能量即对于每个音频帧,在16个频率子带上计算平均谱能量,从而形成16维向量。

8.根据权利要求7所述的一种音频长时指纹提取方法,其特征在于:所述A3中,子带谱能量L2正则化处理得到帧级短时特征即对得到的16维向量作L2正则化,即为该音频帧的短时特征,记作V。

9.根据权利要求8所述的一种音频长时指纹提取方法,其特征在于:所述S5中,帧组长时特征提取的具体操作为将连续固定数量音频组成帧组,在时间轴方向上将帧级短时特征进行再次DFT变化,并保留低频稳定分量,形成帧组长时特征。

10.一种音频长时指纹匹配方法,其特征在于:该匹配方法包括以下步骤:B1:将待匹配的2个音频文件或片段按帧组提取长时特征;

B2:对2个帧组长时特征进行帧组级匹配,并确定匹配关系。