利索能及
我要发布
收藏
专利号: 2016104955788
申请人: 徐州工程学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于包括如下步骤:S1用户提交查询信息,搜索引擎对用户输入的查询信息进行检索后,根据检索到的信息,通过查询结果的链接信息获取相关文档,记为顶层文档;

S2计算用户输入的查询信息与所述顶层文档中每篇文档的相关度,所述相关度根据用户输入查询信息的词项在所述顶层文档中的出现频率计算,取相关度较高的前m篇作为用户检索的候选集;

S3从所述候选集中随机抽取n篇文档交给用户判断是否是希望获取的文档,把用户标注后的这n篇文档放入训练集T中;

S4使用向量空间模型(Vector Space Model)对所述训练集T进行表示,用AdaBoost.MH with real-valued predictions算法在候选集T上进行训练,并产生分类器;

S5采用步骤S4所述的分类器对所述候选集T中的用户未标注文档进行分类;

S6根据上一步的分类结果,对每一篇未标注文档计算可能的贡献度,所述贡献度的计算公式如下:其中,α、β为经验系数;po表示文档判为正例后可能对分类器的纠正力度;ne表示文档被判为反例后可能对分类器的纠正力度;Score为分类器对当前文档和用户检索目标相关度的量化输出的得分,分值越高,则该文档属于正类可能性越大,分值越低,则该文档不属于正类的可能性越大;Max和Min分别为分类器给所述未标注文档得出的最高分值和最低分值;(Max-Score)/(Max-Min)体现了文档样本在当前分类器判断下不属于检索目标的可能性;(Score-Min)/(Max-Min)则相应地体现了文档样本在当前分类器判断下不属于正类的可能性;

根据采用的向量空间模型(Vector Space Model)文档表示方法和增强学习策略以及计算复杂度较低的基于关键词词频信息的弱分类器,确定样本对分类器的纠正力度系数的计算公式为:和

其中,c(w)表示分类器给出的词项w和目标查询文档的相关度(即分类器对样本的得分),W为当前文档d中所含有关键词项集合;令D为全部文档集合,则d∈D为当前样本文档,为已标注文档集;令|Tr|表示已标注文档总数,#Tr(w)为在已标注文档中含词项w的文档数,#(w,d)为词项w在当前文档d中出现频次,则idf函数计算公式为tf-idf公式为tfidf(w,d)=#(w,d)·idf(w);

S7根据所述贡献度评价公式选择贡献度最高的k篇文档请用户标注,并放入所述训练集T中;

S8如果未达到迭代次数限制则返回步骤S3,否则向下进行;

S9利用步骤S4所述分类器对候选集T中的剩余文档进行排序;

S10将步骤S9所述分类器产生的排序结果按照相关度降序向用户提交排序靠前的文档。

2.根据权利要求1所述的一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于,步骤S1中在用户提交查询信息后,删除查询信息中频率小于3的词和无意义的虚词再进行检索。

3.根据权利要求1所述的一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于,步骤S8中迭代次数限制为5次。