1.一种基于深度学习的人机交互语音识别系统,其特征在于,包括,多模态采集模块,用于实时获取语音信号及关联的红外人体检测信号;
声纹处理模块,基于预训练的通用声纹识别模型和可动态加载的设备专属适配层,生成说话人身份向量;
动态决策模块,根据所述语音信号的实时声纹置信度、红外人体检测信号的空间一致性,以及预定义的设备操作权限列表,生成指令归属判定结果;
执行模块,响应所述判定结果并输出控制指令至目标设备。
2.如权利要求1所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述声纹处理模块包括:预训练声纹编码器,用于从语音信号中提取通用声纹特征;
设备专属适配层,通过元学习框架生成适配参数,将所述通用声纹特征映射至当前设备操作者特征空间。
3.如权利要求2所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述元学习框架采用模型无关元学习MAML算法,通过设备历史注册语音生成适配参数。
4.如权利要求3所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述设备专属适配层中,在新设备操作者注册阶段,从至多5条注册语音中提取通用声纹特征,构成支持集,并以此初始化元学习框架参数,后续通过一次带动量的梯度更新生成设备专属适配参数,具体流程包括:构建支持集:
,
其中, 表示支持集, 表示第 条注册语音提取的通用声纹特征向量, 表示第条注册语音对应的身份标签, 表示样本索引, 表示支持集样本总数;
定义支持集平均分类损失为:
,
其中, 表示支持集上的平均分类损失, 表示元模型初始化参数, 表示分类损失函数, 表示以 为参数的声纹适配映射函数, 表示第 条语音的通用声纹特征向量, 表示第 条语音对应的身份标签;
定义交叉熵损失为:
,
其中, 表示模型预测概率向量, 表示标签独热编码向量, 表示类别索引, 表示类别总数, 表示第 维标签值, 表示第 维预测概率;
一阶梯度更新生成适配参数 :
,
其中, 表示更新后的设备专属适配层参数, 表示学习率, 表示对 求梯度;
引入动量系数进行二次更新,更新公式为:,
其中, 表示动量梯度累积, 表示动量系数, 表示学习率。
5.如权利要求1所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述动态决策模块执行指令归属判定的条件包括:当检测到多个语音指令时,计算各指令的声纹置信度与红外人体空间坐标的匹配度,生成综合置信度评分;
仅当综合置信度评分超过动态阈值时,判定指令有效;
所述动态阈值根据环境噪声等级和设备工作模式自动调整;
所述动态阈值的调整规则为:当设备处于高速移动模式时,阈值降低;当环境噪声频谱中机械冲击噪声占比超过预设噪声值时,阈值提高。
6.如权利要求5所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述综合置信度评分的生成方式为:对语音指令的声纹置信度赋予第一权重,对红外人体检测信号与声源定位坐标的空间偏差赋予第二权重;
当环境噪声强度超过预设等级时,降低第一权重并提高第二权重。
7.如权利要求6所述的一种基于深度学习的人机交互语音识别系统,其特征在于,所述动态决策模块中,定义动态阈值 ,通过环境噪声等级与设备工作模式的线性组合及机械冲击噪声加权修正完成自动调整,调整方式为:基于环境噪声等级 、高速移动模式指示 与机械冲击噪声占比 ,构造阈值计算公式:
,
其中, 表示动态判断阈值, 表示基础阈值, 表示噪声敏感系数,表示环境噪声等级, 表示参考噪声等级, 表示模式调节系数, 表示高速移动模式指示,取值为1或0, 表示冲击噪声增幅系数, 表示机械冲击噪声占比, 表示预设机械冲击噪声阈值;
环境噪声等级与冲击噪声占比计算公式为:,
其中, 表示噪声功率谱密度, 表示语音信号功率谱密度,表示积分频率范围,
,
其中, 表示机械冲击噪声频带下限与上限。
8.一种基于深度学习的人机交互语音识别方法,基于权利要求1 7任一所述的一种基~于深度学习的人机交互语音识别系统,其特征在于,包括:步骤S1,在多人协同作业场景下,同步采集目标区域的语音信号及红外人体分布数据;
步骤S2,提取语音信号中的声纹特征,结合设备专属适配层生成身份置信度向量;
步骤S3,根据红外人体分布数据与声源定位结果的空间偏差,生成环境一致性评分;
步骤S4,基于身份置信度向量、环境一致性评分及预设权限策略,筛选有效指令并发送至执行端。
9.如权利要求8所述的一种基于深度学习的人机交互语音识别方法,其特征在于,所述筛选有效指令的步骤包括:当检测到多个冲突指令时,调用有限指令语法树对指令内容进行结构化解析;
优先执行与当前设备状态存在逻辑冲突的紧急指令,且所述紧急指令的判定条件为指令内容包含预设关键词集合;
所述预设关键词集合包括安全类关键词、设备状态关键词及动作终止关键词,其中安全类关键词优先级最高,且关键词集合通过设备操作手册自动解析生成。
10.如权利要求9所述的一种基于深度学习的人机交互语音识别方法,其特征在于,所述有限指令语法树的构建方式为:根据目标设备的操作手册生成基础指令集,包括动作指令、参数指令及安全指令三类;
为每类指令设置动态优先级权重,所述权重随设备运行时间或外部传感器数据实时更新;
所述外部传感器数据包括设备加速度传感器数据、压力传感器数据及温度传感器数据。