欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 201810635615X
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于相似度模型和FastText的多标签文本分类方法,其特征在于,包括如下步骤:(1)对文本数据进行预处理,得到文本标签数据集G1,文本数据集G2;

(2)通过隐马尔科夫链分词方法处理文本数据集G2,得到文本数据集G3;

(3)通过潜在语义分析方法处理文本数据集G3得到文本向量集V1,通过余弦相似度方法处理文本向量集V1,得到与待处理文本最相近的3个文本标签数据集R1;

(4)通过FastText方法处理文本数据集G3,得到文本标签数据集R2;

(5)通过calLabel方法处理文本标签数据集R1、文本标签数据集R2,得到最终分类的标签。

2.根据权利要求1所述的一种基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(1)中对文本数据进行预处理的具体步骤如下:(1.1)定义Text为单个文本信息集,Name为单个文本名称集,定义id,name,label分别为单个文本的序号、名称和标签,并且满足关系Text={id,name,label};

(1.2)定义G1、G2分别为文本标签数据集、文本数据集,G1={Text1,Text2,…,TextA},G2={name1,name2,…,nameA},Texta为G1中第a个文本标签信息数据,namea为G2中第a个文本名称数据,其中,A=Card(G1),变量a∈[1,A];

(1.3)使用隐马尔可夫链分词方法seg_sentence对G2处理,得到文本数据集G3={name1,name2,…,nameA},nameb为G3中第b个文本数据,其中,变量b∈[1,A]。

3.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(2)中通过隐马尔科夫链分词方法处理文本数据集G2,得到文本数据集G3的具体步骤如下:(2.1)定义D1为待处理文本数据,D1={id1,name1},其中id1,name1分别为编号,名称;

(2.2)定义循环变量i1用来遍历G3,V1为单词文档向量集,i1赋初值为1,V1赋初值为空;

(2.3)如果i1≤A则跳转到步骤(2.4),否则跳转到步骤(2.6);

(2.4)通过对G3i1使用Word2Vec方法得到的单词文档向量vi1,V1=V1∪{vi1};

(2.5)i1=i1+1;

(2.6)得到V1={v1,v2,…,vA},vc为单词文档向量集中第c个单词文档向量,其中,变量c∈[1,A];

(2.7)通过对V1使用SVD分解方法,得到单词文档向量集V2={v1,v2,…,vA},vd为单词文档向量集中第d个单词文档向量,其中,变量d∈[1,A];

(2.8)定义循环变量i2,用来遍历V2,simi2为name1与V2i2的相似度,Sim为相似度集,其中i2∈[1,A],i2赋初值为1;

(2.9)如果i2≤A则跳转到步骤(2.10),否则跳转到步骤(2.12);

(2.10)通过对W和V2i2使用余弦相似度方法得到Sim,Sim=Sim∪{idi2,simi2};

(2.11)i2=i2+1;

(2.12)得到Sim={{id1,sim1},{id2,sim2},...,{idA,simA}},ide为相似度集中第e个编号,sime为相似度集中第e个相似度,其中,变量e∈[1,A];

(2.13)选取相似度集中相似度最高的三个,simtop1,simtop2,simtop3;

(2.14)根据simtop1,simtop2,simtop3对应的idtop1,idtop2,idtop3得到预测标签集Forecast1={labeltop1,labeltop2,labeltop3},其中,labeltopx为Forecast1中的第x个数据项,labeltopx∈Forecast1,x∈[1,3]。

4.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(3)中得到与待处理文本最相近的3个文本标签数据集R1的具体步骤如下:(3.1)定义D2为待处理文本数据,D2={name2},其中name2为名称;

(3.2)定义循环变量i3用来遍历G3,V3为单词文档向量集,i3赋初值为1,V3赋初值为空;

(3.3)如果i3≤A则跳转到步骤(3.4),否则跳转到步骤(3.6);

(3.4)通过对G3i3使用Word2Vec方法得到的单词文档向量vi3,V3=V3∪{vi3};

(3.5)i3=i3+1;

(3.6)得到V3={v1,v2,…,vA},vf为单词文档向量集中第f个单词文档向量,其中,变量f∈[1,A];

(3.7)加入G1中标签得到G4={g1,g2,…,gA},其中gh={label,v},gh为单词文档向量集中第h个文本标签数据集,变量h∈[1,A];

(3.8)定义字符窗口word_gram=2,字符数组bucket=150000,对G4使用FastText方法进行训练,得到模型数据集M1;

(3.9)将name2输入进模型数据集M1,经过模型数据集M1训练,得到预测标签集Forecast2={label}。

5.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(4)中通过FastText方法处理文本数据集G3,得到文本标签数据集R2的具体步骤如下:(4.1)定义预测标签集Forecast1={labeltop1,labeltop2,labeltop3},Forecast2={label},最终待处理文本标签数据Forecast,Forecast赋初值为空,其中,labeltopy为Forecast1中的第y个数据项,labeltopy∈Forecast1,y∈[1,3];

(4.2)如果 则跳转到步骤(4.3),否则跳转到步骤(4.4);

(4.3)Forecast=Forecast2={Label};

(4.4)Forecast=Forecast1∪Forecast2;

(4.5)得到最终待处理文本标签数据Forecast。