买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于姿态传感器的语音活动检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于姿态传感器的语音活动检测方法

￥13500

专利号： 2021106462907

申请人：杭州芯声智能科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于姿态传感器的语音活动检测方法，运用于具备姿态传感器的音频采集装置中，其特征在于，通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练，并得到神经网络模型最优解，所述神经网络模型用于语音活动检测，所述混合特征数据经过如下步骤进行构建：通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据；

通过音频采集装置采集外部声音变化并作为声音特征数据；

分别对姿态特征数据与声音特征数据进行数据预处理操作；

对预处理后的姿态特征数据与声音特征数据进行特征拼接，得到混合特征数据；

将混合特征数据作为神经网络量化训练数据，用于后续的模型训练；

并通过如下步骤对预处理后的姿态特征数据与声音特征数据进行特征拼接：将收集到的声音特征数据与姿态特征数据按照实时相应的位置进行一一标明点位信息；

对姿态传感器的姿态特征数据进行声音特征数据起始位置和结束位置的信息标注；

按照信噪比要求将随机噪声数据以随机SNR的方式与标注后的声音特征数据进行数据混合，并确保混合后数据与声音特征数据起始位置和结束位置一一对应；

将混合后数据与标明点位信息后的姿态特征数据进行对标，并由此得到一条特征拼接后的训练数据；

对所有姿态特征数据与声音特征数据均进行特征拼接，并得到特征拼接后的训练数据集。

2.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法，其特征在于，所述声音特征数据为MFCC特征数据，并通过如下步骤进行MFCC声音特征数据提取和声音特征数据预处理操作：通过高通滤波器对声音特征数据进行预加重；

通过分帧函数对预加重数据进行分帧操作；

将每一分帧带入窗函数进行加窗操作；

对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱；

对能量谱行离散余弦变换得到MFCC系数；

对梅尔频谱图提取一阶差分参数；

将MFCC系数和一阶差分参数进行拼接，得到MFCC特征数据。

3.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法，其特征在于，对姿态特征数据预处理操作是将时域姿态特征数据转换成频域姿态特征数据的操作，所述姿态特征数据为包括X轴、Y轴和Z轴的姿态特征数据，通过如下步骤进行姿态特征数据预处理操作：对姿态特征数据进行分帧操作，姿态特征数据的每一分帧与声音特征数据的每一分帧进行一一对应；

通过姿态特征数据计算每一分帧的位移量，计算公式为：s(n)＝f(n)‑f(n‑1)；n∈(0,512]；

as(n)＝s(n)‑s(n‑1)；n∈(0,512]；

其中，s(n)表示第n分帧的速度，as(n)表示第n分帧的加速度，f(n)表示第n分帧的数据位置标签；

将计算获得速度以及加速度分别进行对数变换；

将速度和加速度拼接在一起，得到姿态特征数据。

4.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法，其特征在于，所述神经网络模型为循环神经网络模型，所述循环神经网络模型采集相邻帧的信息，并根据相邻帧的信息对当前帧语音活动检测的权重矩阵进行调整。

5.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法，其特征在于，对训练完成的神经网络量进行量化压缩，通过量化压缩将32bit浮点型权值量化为2bit定点型权值；量化压缩步骤如下：从原矩阵中计算得出阈值Δ和缩放因子α

将原权重转变为三值权重；

将输入X与α相乘作为新的输入然后与三值权重进行加法计算代替原本的乘法计算进行正向传播；

使用SGD算法反向传播进行迭代训练。

6.根据权利要求5所述的一种基于姿态传感器的语音活动检测方法，其特征在于，将原权重矩阵W通过三值权重与比例系数α相乘近似表示，所述三值权重表示为：其中：阈值Δ从原权重矩阵W中产生，所述阈值Δ为：其中：i表示权重项对应序列数，n表示权重项总序列数；

缩放因子α为：

其中：IΔ＝{1≤i≤n||Wi＞Δ|}，|IΔ|表示IΔ中的元素个数。

7.根据权利要求2所述的一种基于姿态传感器的语音活动检测方法，其特征在于，所述加窗操作通过汉明窗函数进行，所述汉明窗函数为：其中，n表示被截取信号；a0表示汉明窗常数，值为25/46；N‑1表示汉明窗的截取窗口长度；

所述预加重的加重因子为0.97，所述对梅尔频谱图提取一阶差分参数通过梅尔滤波器完成，使用的梅尔滤波函数为：其中，f表示需要进行滤波的信号的实际频率。

8.根据权利要求2所述的一种基于姿态传感器的语音活动检测方法，其特征在于，通过训练好的神经网络模型来进行语音活动检测；所述神经网络模型为深度神经网络模型，所述深度神经网络模型对需进行语音活动检测的音频信号进行逐帧特征数据处理，并且将深度神经网络模型的计算结果通过softmax函数来计算语音/非语音的后验概率；后验概率值介于0至1之间，超过判定阈值即可认定为是语音，未超过判定阈值则认定为非语音。