1.一种基于相似度模型和FastText的多标签文本分类方法,其特征在于,包括如下步骤:(1)对文本数据进行预处理,得到文本标签数据集G1,文本数据集G2;
(2)通过隐马尔科夫链分词方法处理文本数据集G2,得到文本数据集G3;
(3)通过潜在语义分析方法处理文本数据集G3得到文本向量集V1,通过余弦相似度方法处理文本向量集V1,得到与待处理文本最相近的3个文本标签数据集R1;
(4)通过FastText方法处理文本数据集G3,得到文本标签数据集R2;
(5)通过calLabel方法处理文本标签数据集R1、文本标签数据集R2,得到最终分类的标签。
2.根据权利要求1所述的一种基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(1)中对文本数据进行预处理的具体步骤如下:(1.1)定义Text为单个文本信息集,Name为单个文本名称集,定义id,name,label分别为单个文本的序号、名称和标签,并且满足关系Text={id,name,label};
(1.2)定义G1、G2分别为文本标签数据集、文本数据集,G1={Text1,Text2,…,TextA},G2={name1,name2,…,nameA},Texta为G1中第a个文本标签信息数据,namea为G2中第a个文本名称数据,其中,A=Card(G1),变量a∈[1,A];
(1.3)使用隐马尔可夫链分词方法seg_sentence对G2处理,得到文本数据集G3={name1,name2,…,nameA},nameb为G3中第b个文本数据,其中,变量b∈[1,A]。
3.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(2)中通过隐马尔科夫链分词方法处理文本数据集G2,得到文本数据集G3的具体步骤如下:(2.1)定义D1为待处理文本数据,D1={id1,name1},其中id1,name1分别为编号,名称;
(2.2)定义循环变量i1用来遍历G3,V1为单词文档向量集,i1赋初值为1,V1赋初值为空;
(2.3)如果i1≤A则跳转到步骤(2.4),否则跳转到步骤(2.6);
(2.4)通过对G3i1使用Word2Vec方法得到的单词文档向量vi1,V1=V1∪{vi1};
(2.5)i1=i1+1;
(2.6)得到V1={v1,v2,…,vA},vc为单词文档向量集中第c个单词文档向量,其中,变量c∈[1,A];
(2.7)通过对V1使用SVD分解方法,得到单词文档向量集V2={v1,v2,…,vA},vd为单词文档向量集中第d个单词文档向量,其中,变量d∈[1,A];
(2.8)定义循环变量i2,用来遍历V2,simi2为name1与V2i2的相似度,Sim为相似度集,其中i2∈[1,A],i2赋初值为1;
(2.9)如果i2≤A则跳转到步骤(2.10),否则跳转到步骤(2.12);
(2.10)通过对W和V2i2使用余弦相似度方法得到Sim,Sim=Sim∪{idi2,simi2};
(2.11)i2=i2+1;
(2.12)得到Sim={{id1,sim1},{id2,sim2},...,{idA,simA}},ide为相似度集中第e个编号,sime为相似度集中第e个相似度,其中,变量e∈[1,A];
(2.13)选取相似度集中相似度最高的三个,simtop1,simtop2,simtop3;
(2.14)根据simtop1,simtop2,simtop3对应的idtop1,idtop2,idtop3得到预测标签集Forecast1={labeltop1,labeltop2,labeltop3},其中,labeltopx为Forecast1中的第x个数据项,labeltopx∈Forecast1,x∈[1,3]。
4.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(3)中得到与待处理文本最相近的3个文本标签数据集R1的具体步骤如下:(3.1)定义D2为待处理文本数据,D2={name2},其中name2为名称;
(3.2)定义循环变量i3用来遍历G3,V3为单词文档向量集,i3赋初值为1,V3赋初值为空;
(3.3)如果i3≤A则跳转到步骤(3.4),否则跳转到步骤(3.6);
(3.4)通过对G3i3使用Word2Vec方法得到的单词文档向量vi3,V3=V3∪{vi3};
(3.5)i3=i3+1;
(3.6)得到V3={v1,v2,…,vA},vf为单词文档向量集中第f个单词文档向量,其中,变量f∈[1,A];
(3.7)加入G1中标签得到G4={g1,g2,…,gA},其中gh={label,v},gh为单词文档向量集中第h个文本标签数据集,变量h∈[1,A];
(3.8)定义字符窗口word_gram=2,字符数组bucket=150000,对G4使用FastText方法进行训练,得到模型数据集M1;
(3.9)将name2输入进模型数据集M1,经过模型数据集M1训练,得到预测标签集Forecast2={label}。
5.根据权利要求1所述的基于相似度模型和FastText的多标签文本分类方法,其特征在于,所述步骤(4)中通过FastText方法处理文本数据集G3,得到文本标签数据集R2的具体步骤如下:(4.1)定义预测标签集Forecast1={labeltop1,labeltop2,labeltop3},Forecast2={label},最终待处理文本标签数据Forecast,Forecast赋初值为空,其中,labeltopy为Forecast1中的第y个数据项,labeltopy∈Forecast1,y∈[1,3];
(4.2)如果 则跳转到步骤(4.3),否则跳转到步骤(4.4);
(4.3)Forecast=Forecast2={Label};
(4.4)Forecast=Forecast1∪Forecast2;
(4.5)得到最终待处理文本标签数据Forecast。