1.一种融合LATEX标签的知识点标注方法,其特征在于:方法步骤如下:步骤S1,数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集,习题数据集中的习题称为原始习题文本w;
步骤S2,将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原lc tt始习题文本表示e、LATEX标签概念表示e 和术语类型表示e ;
步骤S3,将步骤S2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制lc tt将LATEX标签概念表示e 和术语类型表示e 分别与原始习题文本表示e进行融合,输出结lc tt果为LATEX标签概念的深层语义表示M 和术语类型的深层语义表示M ;将学科知识融合模块中进行平均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征,即LATEX标签概念的池化表示 与术语类型的池化表示 ;
步骤S4,将步骤S3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术cls‑remain2语类型信息的影响下最终被保留的信息,简称为最终保留的信息e ;
cls‑remain2
步骤S5,将步骤S4中门控筛选模块输出的最终保留的信息 e 作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签;
步骤S2中句子编码器模块,具体为:
步骤S21,句子编码器模块选取RoBERTa作为预训练语言模型,RoBERTa预训练语言模型是鲁棒优化的BERT方法,句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt,三者共享RoBERTa预训练语言模型的参数;
步骤S22,RoBERTa预训练语言模型作为函数,wi为第i个索引的原始习题文本,lci为第i个索引的LATEX标签概念文本,tti为第i个索引的术语类型文本,具体的计算过程如公式(1)所示;
(1);
其中,ei为第i个索引的原始习题文本wi经过RoBERTa预训练语言模型得到的向量表示,lc即称为第i个索引的原始习题文本表示ei,ei 为第i个索引的LATEX标签概念文本经过lc ttRoBERTa预训练语言模型得到的向量表示,即称为第i个索引的LATEX标签概念表示ei ,ei为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个tt索引的术语类型表示ei ;
步骤S23,提取最后一层自然语言处理领域的模型的输出作为文本词向量表示,文本词lc向量表示即第i个索引的原始习题文本表示ei、第i个索引的LATEX标签概念表示ei 、第i个tt索引的术语类型表示ei ;
步骤S3中学科知识融合模块,具体为:
步骤S31,输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示;
lc
步骤S32,利用交叉注意力机制将第i个索引的LATEX标签概念表示ei ,第i个索引的术tt语类型表示ei 分别与第i个索引的原始习题文本表示ei进行融合,输出结果为第i个索引lc tt的LATEX标签概念的深层语义表示Mi 和第i个索引的术语类型的深层语义表示Mi ;
步骤S33,同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示,引入多头注意力机制,最终的注意力计算过程如公式(2)、公式(3)所示;
(2);
(3);
lc
其中,headij 为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示,Q K Vsoftmax作为一种激活函数,将输入的未归一化的分数转换为概率分布,Wj 、Wj 、Wj分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵,T为第i个索引的lc KLATEX标签概念表示ei 和键向量Wj 相乘的转置,dK为第i个索引的原始习题文本表示ei的第二维度大小;
tt
headij 为第i个索引的术语类型表示进行第j次注意力计算的特征表示;
lc
Mi 为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标lc签概念的深层语义表示,称为第i个索引的LATEX标签概念的深层语义表示Mi ,表示级联操作,h表示注意力计算次数;
tt
Mi 为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深tt层语义表示,称为第i个索引的术语类型的深层语义表示Mi ;
步骤S34,提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子lc信息表示,对第i个索引的LATEX标签概念的深层语义表示Mi 和第i个索引的术语类型的深tt层语义表示Mi 进行平均池化,并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征,计算如公式(4)所示;
(4);
其中, 为对第i个索引的标签概念的深层语义表示进行平均池化后的结果,称为第i个索引的LATEX标签概念的池化表示 , 为对第i个索引的术语类型的深层语义表示进行平均池化后的结果,称为第i个索引的术语类型的池化表示 ;AvgPool是分别对第ilc tt个索引的LATEX标签概念的深层语义表示Mi 和第i个索引的术语类型的深层语义表示Mi平均池化的操作;
步骤S4中门控筛选模块,具体为:
步骤S41,输入数据即第i个索引的LATEX标签概念的池化表示 与第i个索引的术语类型的池化表示 ;
步骤S42,通过作用于第i个索引的LATEX标签概念的池化表示 和CLS标签向量ecls的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息,计算过程如公式(5)所示;
(5);
lc
其中,ri 为在第i个索引的LATEX标签概念信息的影响下所保留的权重值,为sigmoidlc激活函数,W 为对第i个索引的LATEX标签概念的池化表示 和CLS标签向量ecls拼接后lc的可学习的矩阵,b 为偏置向量,[ecls, ]为对CLS标签向量ecls和第i个索引的LATEX标签概念的池化表示 进行拼接得到的结果;
cls‑remain1 lc
ei 为在第i个索引的LATEX标签概念信息的影响下所保留的权重值ri 与CLS标签向量ecls相乘得到的结果,表示原始习题文本在第i个索引的LATEX标签概念信息的影响cls‑remain1下被保留的信息,简称为初步保留的信息ei ;
步骤S43,原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信cls‑remain2息的影响下最终被保留的信息ei ,计算过程如公式(6)所示;
(6);
tt
其中,ri 为在第i个索引的术语类型信息的影响下所保留的权重值,表示sigmoid激cls‑remain1 tt cls‑remain1活函数,输入为初步保留的信息ei ,W 为对初步保留的信息ei 和第i个索tt cls‑remain1引的术语类型的池化表示 拼接后的可学习的矩阵,b 为偏置向量,[ei , ]cls‑remain1为初步保留的信息ei 和第i个索引的术语类型的池化表示 进行拼接得到的结果;
cls‑remain2 cls‑remain1 ttei 则是初步保留的信息ei 与ri 相乘得到的门控筛选模块的最终输出,即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息,称为第i个索引的学科知识信息影响下的最终保留的cls‑remain2信息ei ;
步骤S5,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息cls‑remain2ei 作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签;
步骤S5中预测模块,具体步骤为:
步骤S51,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息cls‑remain2ei 输入到带有sigmoid函数的线性层后,将得到最终的分类概率向量,如公式(7)所示;
(7);
其中, 为sigmoid函数的线性层得到的第j个分类概率向量,sigmoid为激活函数,Wc为cls‑remain2第i个索引的学科知识信息影响下的最终保留的信息ei 可学习的矩阵,bc为偏置向量;
步骤S52,引入分类阈值δ, 表示当前习题对应第j 个知识点标签,判断sigmoid函数的线性层得到的第j个分类概率向量 与分类阈值δ的大小关系得到当前习题对应第j 个知识点标签 ,如公式(8);
(8);
步骤S53,采用分布平衡损失以平衡各知识点标签之间的实例数量,具体损失函数的计算如公式(9)所示;
(9);
其中,LDB表示最后所求得的分布平衡损失,C表示知识点的总数,k表示数据集中的第kk道习题, 作为加权系数加入训练以弥补期待与实际采样概率之间的差距,yj表示第k道k k习题对应第j个知识点的真实标记,yj∈{0,1},log表示取对数,zj表示第k道习题预测出第j个知识点的概率,vj是一种阶级特异性偏差,表示固有模型的偏差;λ是影响损失梯度的k决定性因素,表示对分类概率zj的“容忍”程度。
2.根据权利要求1所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S1中数据集构建,具体为:步骤S11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点,共有四种题型包括选择题、填空题、解答题和判断题;
步骤S12,对收集的习题进行预处理,首先对习题进行去无效字符、去重、补全清洗操作,得到14200道习题;然后采用数学公式识别工具将以图片形式存在的公式识别成Word支持的公式格式;
步骤S13,预处理之后对习题的知识点采用自动化的方式进行标注,标注的习题的知识点来源于两个方面,一方面在线教育平台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准;
步骤S14,经过习题预处理和知识点标注,最后得到包含12073道习题的数据集。
3.根据权利要求2所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S13中对习题的知识点标注,具体为:步骤S131,借助在线教育平台的习题查询功能找到习题对应的多个三级知识点;
步骤S132,通过查询知识点分级标准中与习题对应的一、二、三级知识点;
步骤S133,以在线教育平台所获的三级知识点为主,对从知识点分级标准中查询的三级知识点进行筛除,并从中查询三级知识点所属的一级和二级知识点;
步骤S134,借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断,对相似度大的标注结果进行统一,确保所标注的知识点不冗余;
步骤S135,根据初中数学教育专家提供的中考考纲,去除中考中不考察的知识点及对应习题。
4.一种融合LATEX标签的知识点自动标注模型,应用于权利要求1‑3任意一项所述的融合LATEX标签的知识点标注方法,其特征在于:主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块,句子编码器模块作为知识点自动标注模型的第一个模块,四个模块依次呈串行结构。