利索能及
我要发布
收藏
专利号: 2019103698234
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,包括以下步骤:S1,提取原文本的词和/或短语特征;

S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;

S3,对步骤S2中的扩展词进行筛选候选词;

S4,生成伪文本。

2.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S1中,原文本的词和/或短语特征的提取方法包括:设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为 其中, 是大小为h的窗口内词向量相加而成的新向量;

当h为1时,T(1)即为S,表示单个词特征;

(1) (2) (p)

通过改变h大小,得到S的多组语义特征,表示为T={T ,T ,...,T }。

3.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S2中,扩展词的生成方法包括:以预训练的词向量矩阵WMDIC为查找表;计算:其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数; 为候选词集;

其中,sim()为相似度度量函数, 为扩展特征,w为实边线权值;

其中, 为生成ti与 之间权值为w的实线边;

Er=Er∪{er};Er为实线边集,er为实线边;

C(h)为扩展特征集, 为候选扩展词集。

4.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中,候选词的筛选方法包括:设词典为D,原文特征为T(h),对 为其候选词;计算:其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};

其中, 为生成tj与 之间权值为z的虚线边;

Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;

其中, 为特征tj对候选词 的条件概率,计算公式为:其中,|D|为字典D中的词数, 是tj、 在文本集中的共现频度;

由于 是生成的扩展词,对 假设其先验概率相等,令 则 在TP下的后验概率计算如式:

即 的后验概率是其相关联虚线边权值的乘积。

5.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S4中,伪文本的生成方法包括:对 将评分最高的 作为ti的扩展特征;

评分的计算方法为: 其中,w为实边线权值; 为扩展特征,

分别对 进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。

6.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中还包括:在筛选扩展词时,对文本特征ti, 为其候选词集,如 为ti-1已选中的扩展词,则对计算:其中,sim()为余弦相似度度量函数,λ是相关度度量参数;

当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。