欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2018100620163
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于词频-逆文档与CRF的文本匹配方法,包括步骤:1:从网上搜集文本匹配语料集,包含产品描述与搜索词的句子对,关联匹配则其标签为1,否则为0,将语料集随机分为训练集语料和测试集语料,步骤2:采用中文分词算法对步骤1中处理好的语料进行分词,收集去停用词表,根据词表去除语料中的停用词;其特征在于,还包括以下步骤:步骤3:通过条件随机场CRF将步骤2中得到的语料中的训练集进行身份词、行为词及无关词的标记,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型,并获取文本中所有词的属性,依据相关性或相似性匹配对身份词或行为词做该词的权重增强;

步骤4:采用词频-逆文档TF-IDF对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值作为该词TF-IDF权重;

步骤5:采用Word2vec对步骤2中处理好的的语料进行训练,得到词向量模型;

步骤6:将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量;

步骤7:将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型;

步骤8:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。

2.根据权利要求1所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,采用基于N-最短路径的中文分词算法对语料进行分词。

3.根据权利要求2所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤:首先通过邻接表表示出每个词组之间的耦合关系,然后通过计算词组之间的耦合关系来确定初次的分词路径;最后当所有路径计算完毕后,找到最优的路径作为分词结果。

4.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤3具体为:通过CRF将步骤2中得到的语料中的训练集进行标记,用户行为词、身份词和无意义词分别标注为act、ide、non,以提取用户的偏好信息及需求信息,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,使得特征提取时考虑当前词与其前后各一个词的组合关系,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型。

5.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述采用TF-IDF对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值,TF-IDF算法以词语作为文本的特征项,每个特征项的权重由TF权值和IDF权值两个部分构成,具体包括:具体计算公式如下:

wji=TFji·IDFi       (2)

TFji=fji/T        (3)

IDFi=log(N/ni+0.01)         (4)

Wj={wj1,wj2,...,wji}          (5)

TF,为特征项在文本中出现的频率,表示该词在当前文本中的重要程度,其中,T表示为第j个文本的全部词数,fji为第j个文本中第i个词在该文本中出现的次数,IDF为特征项的逆文档数,通过统观全局判断该词的重要性,其中N表示总共有N个文本,词i在ni个文本中出现,Wj表示第j个文本特征向量的权重集合,wji则为第j个文本中第i个词的权重。

6.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤5采用Word2vec中分层Softmax算法的词袋模型DBOW,将步骤2中处理好的的语料输入模型中,获取得每个单词在向量空间上的表示。

7.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量,具体为:将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘,并根据在步骤3中获取的用户属性词进行按倍数的权重增强,得到语义增强后的特征向量。

8.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤8将得到的测试集语料的文本特征向量输入Softmax,根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率,具体包括:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配,如果实际输出文本的标签等于1,判定该句子对内容是匹配的,如果实际输出文本的标签不等于1即标签等于0,判定该句子对内容是不匹配的,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算句子对匹配的准确率。

9.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述CRF是基于判别式的无向图模型,采用是线性链条件随机场,x=(x1,x2,…xn)代表的标记序列表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRFs模型定义状态序列的联合条件概率为:其中,tj(yi-1,yi,x,i)是观察序列在i与i-1时刻的转移特征函数,sk(yi,x,i)是观察序列在i时刻的状态特征函数,参数λj和μk可以从训练数据中估计,获得非负值越大则优先选择相应的特征事件;若获得的负值越大,则说明相应的特征事件越不可能发生。