1.一种面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是:包括以下步骤:S1.智能家居多模态对话系统输入数据获取:由智能家居中的各个传感器捕捉用户的多模态数据,进而获得多模态数据集 ;
S2.多模态显性知识图谱构建:多模态数据集 经过基于BERT的双向循环神经网络模型得到实体集 、关系集 和三元组集 ,基于所述实体集 、关系集 以及三元组集 构建多模态显性知识图谱 ;
S3.多模态显性知识表示学习:多模态显性知识图谱经过显性知识表示学习模型进行处理,得到实体节点的特征表示向量以及实体节点之间的关系表示向量;
所述显性知识表示学习模型包括子图结构获取模块和多层图卷积模块,具体步骤包括:所述多模态显性知识图谱经过所述子图结构获取模块通过基于语义元路径Semantic MetaPath的方式得到蕴含语义的子图结构,进一步结合图卷积运算聚合子图结构的邻接节点 的信息,公式表示如下:,
其中,和 分别表示邻接实体节点 的特征表示向量, 与 分别表示元路径第层与第 层实体节点的特征表示向量, 表示 节点采用随机函数随机生成的初始特征向量, 表示元路径第 层的神经网络权重, 表示实体节点 和 之间的关系向量,表示语义元路径,表示卷积运算;
子图结构的邻接节点 的信息经过多层图卷积模块进行多层图卷积的运算,计算得到实体与关系向量,再构建三元组的正例 和负例 ,并对损失函数 进行优化,损失函数计算公式为:,
其中,表示距离因子, 表示随机替换后第 个实体节点的实体向量, 表示随机替换后第 个实体节点的实体向量, 表示三元组的正例,表示距离函数,表示将异构的多模态实体和关系映射到统一的向量空间中,最终经过训练获得多模态显性知识图谱中实体节点的特征表示向量以及实体节点之间的关系表示向量;
S4.多模态显性知识的推理与关系补全:多模态显性知识图谱与所述实体节点的特征表示向量以及实体节点之间的关系表示向量输入到多模态显性知识图谱知识推理模型中进行推理,补全知识图谱中缺失的三元组知识,得到多模态显性知识图谱中新的图数据,进而得到完整的多模态显性知识图谱;
所述多模态显性知识图谱知识推理模型包括图卷积模块、图池化模块以及注意力机制模块,具体步骤包括:将所述多模态显性知识图谱与所述实体节点的特征表示向量以及实体节点之间的关系表示向量输入到图卷积模块进行卷积操作,得到卷积后的三元组的图,然后经过图池化模块,对所述卷积后的三元组的图中节点进行聚合,取相邻节点的平均值为最新节点,得到聚合后的图,然后将聚合后的图输入注意力机制模块,通过计算每个节点和其邻居节点的特征向量,以及当前节点与邻居节点的注意力权重,得到与当前节点关系密切的邻居节点,然后将得到的邻居节点的特征进行加权求和,得到当前节点的新特征表示,最终得到多模态显性知识图谱 中新的图数据,计算公式如下:,
其中, 表示利用图卷积神经网络GCN获得的子图特征, , 分别表示节
点 的度, 表示线性变换矩阵,表示偏移量, 表示邻接节点 的特征向量, 表示节点 的邻接节点集, 表示经过注意力矩阵 加权的子图特征, 表示用于分类的神经网络‑‑两层全连接神经网络,表示第i个实体节点,表示第j个实体节点, 表示激活函数, 表示sigmoid激活函数;
S5.多模态隐性知识的挖掘与表示学习:所述多模态数据集 通过基于BERT的预训练情感分类模型得到当前用户情感状态的概率分布向量,进而得到微调后的模型,将完整的多模态显性知识图谱输入到微调后的模型中,得到多模态数据中的隐含的情感信息。
2.根据权利要求1所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,步骤S1所述多模态数据包括音频数据集 、视频数据集 、文本数据集 和图像数据集 ,所述多模态数据集 。
3.根据权利要求1所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,步骤S2具体为:S21.将音频数据集 利用音频转文本模型转换成文本数据并添加到文本数据集中,所述文本数据集 中的单个文本 通过基于Transformer的双向编码的BERT模型进行语句特征提取,得到文本序列特征 ,所述文本序列特征 经过双向LSTM模型得到最终的文本序列特征 ,公式表示如下:,
,
其中, 表示基于Transformer的双向编码的BERT模型, 表示双向LSTM模型,表示在文本序列特征 上位置为 的特征向量, 表示上一步序列位置的词对应记忆, 表示在最终的文本序列特征 上位置为的特征向量;然后,利用线性变换和Softmax获得最终的文本序列特征 中每个词在 个关系标签上的分类,其中 表示 个关系类别,同时,利用向量和矩阵乘法获得实体之间的关联性,最后利用数据中所包含的标签信息对基于Transformer的双向编码的BERT模型和双向LSTM模型进行训练,获得文本中的三元组信息 ,然后将所述三元组信息输入到通用大模型LLaMA3.1中,完成三元组的有效验证;
S22.利用ViT和最大池化Maxpooling对图像数据集 进行检测得到实体目标,将单张图片进行处理,最终得到图片中的 个实体目标以及实体目标 间的关系 ,;单张图片处理过程如下:将单张图片 切分为具有位置编码的 个图像Patch, ,、 表示图片的长和宽,表示Patch的大小,结合linear transformation将所述图像Patch映射到嵌入向量,并在嵌入向量中添加位置编码嵌入,得到class token格式的输出特征,利用多层感知机MLP对输出特征进行分类;
S23.通过差帧式方法对视频数据集 中视频进行关键帧抽取,将视频压缩成有h张图片的视频关键帧图像数据组,然后使用步骤S22中的方法获取关键帧图像数据组中单张图片中的实体以及实体之间的关系,利用预训练模型CLIP将关键帧的图像转换成文本,采用步骤S21中处理文本的方式得到文本中的三元组信息;
S24.基于步骤S21、S22、S23得到的不同模态的信息,利用特征对比方法,通过计算语义相似度对齐多模态间的知识,并将知识提炼成三元组,得到多模态显性知识图谱 。
4.根据权利要求1所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,步骤S5具体为:所述基于BERT的预训练情感分类模型以BERT模型作为基础模型,并结合双向循环神经网络进行构建;
所述基于BERT的预训练情感分类模型的预训练目标函数 为:
,
其中, 表示情感词汇表中的全部 个词, 表示第 个情感分类标签, 和 表示目标函数中各个任务所占权重, 表示情感分类的个数, 表示概率分布。
5.根据权利要求1所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,所述概率分布向量计算公式为:,
其中, 表示模型输出的概率分布,表示多模态元组 关联的情感分类
标签, 表示视觉模态的数据, 表示文本模态的数据,表示 分布, 表示被遮挡的情感词,表示文本长度。
6.根据权利要求1所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,所述三元组集 , 分别表示头实体、尾实体和头实体到尾实体的关系。
7.根据权利要求3所述的面向智能家居多模态对话系统的知识抽取与挖掘方法,其特征是,所述基于BERT的双向循环神经网络模型包括音频转文本模型、基于Transformer的双向编码的BERT模型、双向LSTM模型、ViT、最大池化Maxpooling、多层感知机MLP以及预训练模型CLIP。