买专利、卖专利、专利购买、专利交易、专利出售、高企申报-跨语言的实时语音识别拾音方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

跨语言的实时语音识别拾音方法及系统

￥27600

专利号： 2025113177192

申请人：广州思正电子股份有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.跨语言的实时语音识别拾音方法，其特征在于，包括以下步骤：

多模态拾音与数据预处理、多模态时序对齐、跨语言特征适配、噪声鲁棒拾音、实时语音识别及健康监测与异常处理；

其中，所述多模态拾音与数据预处理通过多模态拾音阵列采集麦克风语音数据与VAD传感器数据，结合环境感知接口获取噪声等级和说话人数量，对麦克风数据进行去直流、预加重、分帧处理，对VAD数据进行平滑滤波；所述多模态时序对齐通过线性插值、传输时延补偿及DTW算法修正时序误差；所述跨语言特征适配通过语言检测、特征提取及DAN网络映射实现跨语言特征统一；所述噪声鲁棒拾音通过噪声分类、波束形成算法选择及自适应滤波抑制残余噪声；所述实时语音识别通过轻量化CNN‑Transformer网络实现实时识别并反馈优化参数；所述健康监测与异常处理通过健康度得分计算及分级策略保障系统稳定运行。

2.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述预加重处理中，针对汉语设置预加重系数以突出高频清音，针对英语设置预加重系数以平衡高频和低频能量；所述分帧处理采用20ms帧长、10ms帧移，并使用汉宁窗函数加权以减少频谱泄漏；所述VAD数据的平滑滤波采用5阶巴特沃斯低通滤波器，截止频率为100Hz以去除高频噪声。

3.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述多模态时序对齐中，线性插值将VAD传感器数据适配采样率；传输时延补偿通过测量麦克风与VAD传感器数据传输路径的物理长度及信号传播速度计算时延差，调整时间戳使麦克风语音帧与VAD启停信号的时序误差不超过设定值；DTW算法通过构建麦克风语音帧和VAD信号的时间序列矩阵，计算欧几里得距离并动态规划最优路径，调整VAD信号时间序列以修正时序误差。

4.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述语言检测通过提取语音的基频F0、共振峰F1特征构建特征向量，输入轻量化语言分类网络，该网络在包含汉语、英语、日语及其他小语种的多语言数据集上训练，采用交叉熵损失函数和Adam优化器。

5.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述跨语言特征适配中，MFCC计算通过短时傅里叶变换、梅尔滤波器组及离散余弦变换实现；针对汉语聚焦声调特征，调整第5‑15号滤波器中心频率偏移；针对英语强化重音特征，调整第12‑25号滤波器中心频率集中；针对小语种通过遗传算法优化前10个滤波器中心频率；当检测到小语种时触发K减半策略，K=512，多说话人干扰场景时恢复K=1024。

6.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述DAN网络输入层神经元数量与源语言专属特征维度匹配，隐藏层1含256个ReLU激活神经元，隐藏层2含128个ReLU激活神经元，输出层64维线性激活神经元；映射矩阵W通过跨语言预训练和在线微调优化，结合MMD损失与分类损失联合训练。

7.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述噪声鲁棒拾音中，噪声分类采用CNN‑LSTM网络，输入为对数梅尔频谱图，CNN部分含两层卷积和池化，LSTM部分为双向LSTM层，输出稳态、宽带、脉冲、多说话人4类噪声概率；波束形成算法根据噪声类型选择：稳态噪声用延迟‑求和，脉冲噪声用MVDR，多说话人用稀疏波束形成；自适应滤波中，稳态噪声用ANF，宽带噪声用改进型谱减法，多说话人干扰用VAD与说话人分离结合。

8.根据权利要求1所述的跨语言的实时语音识别拾音方法，其特征在于，所述实时语音识别采用帧级流水线处理，麦克风采集第t帧时预处理第t−1帧、识别第t−2帧，延迟不超过设定值；所述健康度得分由设备状态指标和处理质量指标加权求和，权重通过AHP确定，健康度得分小于设定值时触发分级策略：轻度异常提升麦克风增益、中度异常切换备用VAD传感器、重度异常切换至单麦克风+基础噪声抑制模式。

9.一种跨语言的实时语音识别拾音系统，其特征在于，包括主控模块、拾音感知模块、跨语言语音处理引擎及实时识别与反馈模块；

所述主控模块作为核心调度中枢，部署于边缘计算设备，包含同步调度单元、资源分配单元及指令交互单元；所述同步调度单元通过PTP协议实现硬件时钟同步，结合软件动态补偿，控制同步误差不超过设定值；所述资源分配单元根据语言类型及环境噪声等级动态分配CPU/GPU算力，低资源语言时降低识别任务CPU算力，噪声大于设定值时预留设定比例冗余算力用于噪声抑制；所述指令交互单元通过自然语言处理解析用户指令，下发语言适配指令并反馈拾音质量；

所述拾音感知模块包括6‑8路环形麦克风阵列与2路VAD传感器，配合数据预处理单元及环境感知接口；数据预处理单元用于去直流、预加重、分帧处理，日语清辅音高频补偿提升频段增益，低信噪比场景增加滑动窗口平滑滤波；环境感知接口用于读取噪声等级、说话人数量；

所述跨语言语音处理引擎包含语言特征适配引擎、噪声鲁棒拾音引擎及多模态时序对齐引擎；

所述实时识别与反馈模块包含轻量化CNN‑Transformer网络，通过三级并行流水线控制端到端延迟，结合识别质量评估单元实现闭环优化，三级并行流水线包括采集t帧、预处理t‑1帧、识别t‑2帧。