利索能及
我要发布
收藏
专利号: 2022101055650
申请人: 盐城工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种伪相关反馈中的文档主题相关性模型,其特征在于,通过在PRF模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性;

所述PRF模型为相关性模型,通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的相关性模型,该模型为:PT(w|R)∝ΣD∈FP(w|D)·PT(D|F);P(w|D)是文档语言模型,PT(D|F)是基于主题的文档相关性,D是反馈文档集F中的一个文档,w是候选词项,R代表相关性;

基于 主题 的相 关性 模型 中 其 中

PT(z|D)为在第一遍检索中的前k个反馈文档集

F在主题空间中的主题分布,TS(D)代表主题相似度,Di和Dj分别为第i个文档和第j个文档,z是主题;

或,基于主题的相关性模型中 其中

PT(z|D)为在第一遍检

索中的前k个反馈文档集F在主题空间中的主题分布。

2.一种伪相关反馈中的文档主题相关性模型,其特征在于,通过在PRF模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性;所述PRF模型为Rocchio模型;通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的Rocchio模型,该模型具体描述如下:(1)所有的文档都使用一个特定的IR模型对给定的查询进行排名;在第一遍检索中使用BM25,排名最前面的|F|个文档被确定为伪相关集F;

(2)在排名最前面的|F|个文档中的每个候选词都被分配一个扩展权重;扩展权重是由加权模型和基于主题的文档相关性提供的权重的点积,加权模型为TF‑IDF模型;

(3)查询词权重的向量是初始查询词权重和扩展权重的线性组合,其公式如下:Q1=α·Q0+β·∑D∈Fr(D)·PT(D|F),式中Q0和Q1分别代表原始查询向量和经过一次迭代生成的查询向量,α和β是控制原始查询向量和反馈信息依赖程度的调整参数,r(D)是反馈文档D的TF‑IDF权重向量,F是PRF的反馈文档集,PT(D|F)是基于主题的文档相关性;

基于主题的Rocchio模型中 其中

PT(z|D)为在第一遍检索中的前k个反馈文档集

F在主题空间中的主题分布;

或,基于主题的Rocchio模型中 其中

PT(z|D)为在第一遍检

索中的前k个反馈文档集F在主题空间中的主题分布。

3.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,α固定为1。

4.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,PT(D|F)服从均匀分布。