1.一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:该方法包括如下步骤:
S1:定义课程知识图谱的实体和关系形成结构化数据并进行结构信息嵌入;
S2:编码课程背景信息中的目录文本信息形成目录信息嵌入;
S3:根据课程的简介信息提出相同课程类别下语义约束条件;
S4:在结构嵌入、目录嵌入和语义约束条件下设计新的损失函数,提出联合嵌入方法。
2.根据权利要求1所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述课程知识图谱中的三元组以课程为实体,课程实体间的关系定义为递进、互补、包含和平行四种关系:
递进关系指同专业同课程分类下,一门课程分为上下册的递进学习关系,两门课程既是时间上的先后顺序,也是内容之间的连续;
互补关系指同专业同课程分类下,一门课程与其附属实验课程之间的关系,两门课程从理论和实践两个方面互相补充,使得学生更好理解和掌握课程知识;
包含关系指两门课程名称相同,在课程名称后追加A或B等进行区分,但其中一门为必修,学时较长,另一门为选修,学时较短;
平行关系是指在相同课程分类、相同授课学期条件下,除去递进关系、互补关系和包含关系后的关系。
3.根据权利要求2所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述三元组定义为(h,r,t),其中h,t∈ε,ε表示所有课程实体的集合,|ε|=N表示实体的数量,一门课程表示为头实体h,或表示为尾实体t;r表示头实体和尾实体之间的实际关系, 表示所有课程关系的集合;
一个三元组的评分函数fr=(hs,ts)表示为:其中hs和ts分别表示课程实体h和t结构信息的向量化表示,Mr表示课程之间逻辑关系矩阵,d表示向量的维度;
基于边际的排名损失作为训练目标,损失函数为:其中[x]+=max(0,x),γ为边际参数;训练过程中,课程结构信息嵌入模块不断更新实体和关系的嵌入,并最终得到课程知识图谱的实体和关系的嵌入表示hs,Mr,ts。
4.根据权利要求3所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述三元组为正三元组,标签yi=1表示三元组为正,在训练过程中需要随机产生负三元组,负三元组不存在于数据集中,用标签yi=0表示;正三元组集合表示为Δ={(hj,rj,tj)|yj=1},负三元组集合表示为Δ′={(hk,rj,tj)|hk≠hj∩yj=0}∪{(hj,rj,tk)|tk≠tj∩yj=0};模型训练过程中,要求正三元组的评分高,而负三元组的评分低。
5.根据权利要求4所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述目录信息表示为 其中 表示第i门课程带有J条目录,每条目录包含K个词;
使用分词工具pkuseg将目录信息中每个章节标题进行分词dij={wij1,...,wijK},通过word2vec模型得到每个词的词向量,把每个章节的词向量进行加和 则第i门课程的目录信息就可以表示为di={di1,...,diJ};
使用长短期记忆网络LSTM对目录信息进行编码,得到目录信息的向量表示;LSTM中第j个输入的计算公式为:
Fj=σ(Wdfdj+WhfHj‑1+bf)Ij=σ(Wdidj+WhiHj‑1+bi)Oj=σ(Wdodj+WhoHj‑1+bo)hd=Oj⊙tanh(Cj)
其中 为hd的输入隐藏权重, 为Hj‑1的隐藏权重, 为偏置向量;F为遗忘门,I为输入门, 为候选记忆细胞,O为输出门;课程目录信息嵌入模块将实体h和t的目录信息表示为hd,td。
6.根据权利要求5所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述长短期记忆网络LSTM捕捉目录文本信息和目录顺序信息,将对应的权重设置为单位矩阵。
7.根据权利要求6所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述课程的简介信息表示为 其中im={wim1,wim2,...,wimL}表示第m门课程带有长度为L个词的简介信息;每门课程对应的课程类别信息表示为co表示第o门课程所对应的类别;
使用Sentenct‑BERT模型对课程简介信息进行编码;在获得课程简介信息的文本嵌入后,对课程hi和课程tj的简介嵌入 求其相似度,定义为:其中hik表示课程实体hi简介嵌入hi的第k个元素;
在课程简介语义相似度的基础上,引入语义约束矩阵 来达到约束实体嵌入在向量空间中的分布,其中wij表示课程hi和课程tj的语义约束因子;其公式定义为:其中 分别表示课程hi和课程tj所属类别信息;
wij=0表示两门课程不属于同一类别,即对于其语义不做任何约束;通过最小化语义约束 来实现相同类别下,实体在向量空间的语义区分;其定义如下:其中 表示二范数的平方。
8.根据权利要求7所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述语义约束条件是计算相同类别下两两课程间语义信息体现的语义差异,将其作为语义约束因子,进而形成所有实体间的语义约束矩阵。
9.根据权利要求8所述的一种引入语义约束条件的课程知识图谱联合嵌入方法,其特征在于:所述联合嵌入为通过GRU单元联合结构嵌入和目录嵌入,并通过语义约束条件限制实体向量在空间中的分布,提升三元组分类任务的性能;以课程头实体h为例,GRU单元内部的计算公式为:
R=σ(Wsrhs+Wdrhd+br)Z=σ(Wszhs+Wdzhd+bz)其中 为hs的输入隐藏权重, 为hd的隐藏权重,为偏置向量;
联合嵌入的损失函数定义为:
其中nt表示训练集中三元组的数量;损失函数中 联合课程实体的结构信息和目录信息,实现对课程实体向量空间的约束,使得同类别下的课程实体在向量空间互相靠近但又有所区分;超参数λ在在这两部分进行权衡。