利索能及
我要发布
收藏
专利号: 2025113615869
申请人: 临沂大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向智能家居对话系统的语义理解与表示学习方法,其特征是,包括以下步骤:S1、通过设置在智能家居上的传感器捕捉用户使用期间的音频、视频、文本和图像,将捕捉的音频和视频转换成文本与图像,与传感器捕捉的文本和图像构成数据集 ;

S2、对数据集 中数据进行层次化建模,得到文本和图像的上下文特征,根据文本和图像的上下文特征构造多模态层次化结构图,通过融合不同模态进而增强对上下文的理解,最后输出增强后数据集 ;

S3、将增强后数据集 中数据输入至具有动态自适应的知识调控机制模型,将输入数据与知识调控机制模型中的知识提示词查询表进行对比,检索出与输入数据密切相关的提示词,然后将提示词输入至多模态对话判定是否引入与提示词相关的知识,再将引入知识输入至步骤S2中进行层次化建模与多模态融合,对引入知识进行增强,与增强后的数据集构成新的数据集 ;

S4、采集实时数据,通过多层感知机制与数据集 中数据进行对比,判断采集的数据是否一致,判断是否唤醒智能家居对话系统;

S4具体如下:

采集实时视频和音频来判断用户唤醒意图,通过人脸关键点Landmark在采集的视频中标注出人脸的图像特征 ,通过从采集的音频中抽取频谱图Spectrogram作为文本特征 ,然后将图像特征 和文本特征 转换为嵌入向量的形式,通过多层感知机制判断图像特征和文本特征 与数据集 中数据进行对比,判断 和 是否在语义上一致,计算过程如下:,

其中, 表示多层感知机制的操作, 表示数据集 在多层感知机制转换成的参数形式, 表示人脸动作和音频的一致性结果, ,当 时,两者不一致,则说明采集到的音频与视频来源相异,此时智能家居对话系统继续保持睡眠模型,当时,两者一致,则说明采集到的音频与视频来源相异相同,此时智能家居对话系统被唤醒并做出反应。

2.根据权利要求1所述的面向智能家居对话系统的语义理解与表示学习方法,其特征是,S1具体如下:S1.1、传感器捕捉的音频记为 ,捕捉的文本记为 ,通过现有的音频转文本模型 将音频 转换为文本,具体过程如下:,

其中, 表示音频转换文本模型的操作, 表示音频转换成的文本;

传感器捕捉的文本 和音频转换成的文本 共同构成智能家居应用环境中获得的文本数据集 , ;

S1.2、传感器捕捉的图像记为 ,捕捉的视频记为 ,将传感器捕捉的视频经过逐帧抽取得到图像集合 ,传感器捕捉的图像和视频转换得到的图像集合 构成智能家居应用环境中获得的图像数据集 , ;

S1.3、文本数据集 和图像数据集 构成数据集 。

3.根据权利要求2所述的面向智能家居对话系统的语义理解与表示学习方法,其特征是,S2具体如下:S2.1、层次化建模:对数据集 中数据进行层次化建模,得到相应数据的文本和图像的上下文特征,上下文特征元素包括文字和图像中的单词、图像的子区域、句子、图像、整个会话、图像的属性或类别,以上元素均被试做节点,节点之间的关系包括依赖关系、从属关系和跨越不同模态的复杂关系;

S2.2、构造多模态层次化结构图:根据整个会话的语法层级通过树结构进行多模态层次化结构图建模;

第一层为会话层,并将整个会话设置为根节点;

第二层为对话层,并设置对话节点;

第三层为单个句子层或单个图像层,并设置句子节点或图像节点;

第四层为单词或图像的子区域,并设置单词或图像的子区域节点;

第五层为图像的属性和类别层,并设置图像的属性或类别节点;

整个多模态层次化结构图包括两个分支,分别是文本结构化分支和视觉结构化分支。

4.根据权利要求3所述的面向智能家居对话系统的语义理解与表示学习方法,其特征是:S2.2.1、视觉结构化分支建模计算过程如下:通过现有的图像语义模型 t提取图像数据集 中图像的各个语义区域特征, ,一张图像中包含 个语义区域特征, , 表示图像数据集 中某张图像的第个语义区域特征,表示语义区域特征的维度;

每个语义区域特征 在多模态层次化结构图中的运算具体如下:,

其中, 表示图片经过 提取的第 个语义区域特征, 表示语义区域特征 在多模态层次化结构图第一层的表示, 表示语义区域特征 在多模态层次化结构图第二层的表示, 表示语义区域特征 在多模态层次化结构图第三层的表示, 表示语义区域特征 在多模态层次化结构图第四层的表示, 表示语义区域特征 在多模态层次化结构图第五层的表示, 表示,表示多模态层次化结构图的层数, , 表示在层次化结构图第层中视觉结构化分支建模中的编码器, 表示多模态层次化结构图中第个类别或者属性节点的键节点,表示键标志, 表示多模态的层次化结构图中第 个类别或者属性节点的值节点,表示值标志, 表示第 个融合后的特征,共 个融合后的特征,表示为 , 表示第 个融合后的特征, ;

再通过拼接操作和线性变换得到最终的图片特征,计算过程如下:,

其中,表示最终的图片特征, 表示拼接操作和线性变换的操作, 表示偏移量;

S2.2.2、文本结构化分支建模计算过程如下:文本结构化分支建模采用已开源预先训练好的文本结构解析器 从文本数据集 中提取词与词、词与短语之间的结构化特征来增强文本中对语法和语义的逻辑性理解,具体过程如下:,

其中, 表示文本特征,表示语音特征, 表示文本结构解析器。

5.根据权利要求4所述的面向智能家居对话系统的语义理解与表示学习方法,其特征是:S2.3、多模态细粒融合:

分别通过视觉解码器 、文本解码器 和语音解码器 将图片、文本、语音三种模态信息解耦为一致性信息和互补性信息,具体过程如下:,

其中, 、 和 分别表示视觉模态、文本模态和语音模态的一致性信息, 、 和分别表示视觉模态、文本模态和语音模态的互补性信息;

然后通过对抗的方式进行一致性的约束,并通过训练额外的判别器D区分三种模态的一致性信息,计算过程如下:,

其中, 表示最大最小函数, 表示优化目标, 表示数学期望, 表示判别模型, 的底数是10;

然后进行解耦互补信息,通过设计得分网络来约束三种特征得分,具体过程如下:,

其中, 表示取最小值, 表示得分网络,表示预先定义的阈值;

进而实现融合不同模态进而增强对上下文的理解,最后输出增强后数据集 。

6.根据权利要求5所述的面向智能家居对话系统的语义理解与表示学习方法,其特征是,S3具体如下:将得到提示词分别输入至 轮多模态对话判断是够引入相关知识,提示词记为 ,共个提示词, , 表示第 个提示词,具体过程如下:,

其中, 表示第 轮对话中的第 个提示词, 表示文本编码器 , 表示提示词 的向量表示, 表示提示词 的注意力参数, 表示第 轮对话的知识提示词查询表, 表示注意力全局向量, 表示第 轮对话的知识需求得分, 表示是否引入知识的判定器,表示非线性激活函数 , 表示哈达马积;

并设计知识需求得分的控制条件,具体计算如下:,

其中, 表示用于控制历史信息有多少在当前轮次中被引入的衰退系数, 表示向量的积,表示非线性激活函数 , 表示第 轮对话的第 个提示词的向量表示, 表示第 轮对话的知识需求得分;

最后引入知识需求得分高的提示词的相关知识。