1.一种基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,包括以下步骤:S1,提取原文本的词和/或短语特征;
S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;
S3,对步骤S2中的扩展词进行筛选候选词;
S4,生成伪文本。
2.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S1中,原文本的词和/或短语特征的提取方法包括:设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为 其中, 是大小为h的窗口内词向量相加而成的新向量;
当h为1时,T(1)即为S,表示单个词特征;
(1) (2) (p)
通过改变h大小,得到S的多组语义特征,表示为T={T ,T ,...,T }。
3.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S2中,扩展词的生成方法包括:以预训练的词向量矩阵WMDIC为查找表;计算:其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数; 为候选词集;
其中,sim()为相似度度量函数, 为扩展特征,w为实边线权值;
其中, 为生成ti与 之间权值为w的实线边;
Er=Er∪{er};Er为实线边集,er为实线边;
C(h)为扩展特征集, 为候选扩展词集。
4.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中,候选词的筛选方法包括:设词典为D,原文特征为T(h),对 为其候选词;计算:其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
其中, 为生成tj与 之间权值为z的虚线边;
Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;
其中, 为特征tj对候选词 的条件概率,计算公式为:其中,|D|为字典D中的词数, 是tj、 在文本集中的共现频度;
由于 是生成的扩展词,对 假设其先验概率相等,令 则 在TP下的后验概率计算如式:
即 的后验概率是其相关联虚线边权值的乘积。
5.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S4中,伪文本的生成方法包括:对 将评分最高的 作为ti的扩展特征;
评分的计算方法为: 其中,w为实边线权值; 为扩展特征,
分别对 进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。
6.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中还包括:在筛选扩展词时,对文本特征ti, 为其候选词集,如 为ti-1已选中的扩展词,则对计算:其中,sim()为余弦相似度度量函数,λ是相关度度量参数;
当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。