利索能及
我要发布
收藏
专利号: 2020111311616
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于实体替换的文本分类方法,其特征在于,包括以下步骤:

S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;

S2:将文档词向量获得的实体集合来求嵌入矩阵求平均,得到文档的上下文向量;

S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;

S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将去歧后的文档表示向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;

S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出;

所述步骤S1中,利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合,包括以下步骤:S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字,一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;

S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典,所有的锚定短语与其实体字典共同构成Wikipedia字典;

S13:抽取出文档T中所有n‑grams短语(n≤k),n‑grams短语指由n个词构成的短语,如果一个n‑grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n‑grams加入候选锚定短语,对于有矛盾覆盖的n‑grams短语,采取“最先最长”的方法,即选取最长的最先出现的n‑grams短语,一个文档中的所有锚定短语表示为:U(T)={c1,c2,...}

第i个锚定短语对应的实体集合表示为:

E(ci)={e1,e2,...};

所述步骤S2中,将文档词向量求平均,得到文档的上下文向量,包括以下步骤:S21:使用Wikipedia2Vec工具进行预训练,得到单词和实体的嵌入矩阵,令文档中第i个词的词向量 表示x是d维向量, 表示d维空间,d表示维度数,文档长度为n,则句子表示为:x1:n=[x1;x2;...;xn]

S22:对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:其中,C为文档的上下文向量;

所述步骤S3中,分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各锚定短语的去歧向量,包括以下步骤:S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵,得到步骤S1中匹配到的实体对应的向量表示,令文档中第i个锚定短语对应的第j个实体向量S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量,计算公式如下:其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量;

所述步骤S4中,将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],zv表示最后一个去歧向量,xn表示最后一个原文词向量,为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;

S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量,计算公式如下:其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数, 表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量, 表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;

S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:p=softmax(Wco+bc)

其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。