1.一种融合词向量模型和朴素贝叶斯的查询词改写方法,其特征在于,包括以下步骤:根据用户输入的当前查询词w,以及当前查询词的上下文标记contest(w),获取语料库建立词向量模型,根据词向量模型计算查询词的相关词,进行相关词筛选构成查询改写候选词库;根据用户查询日志,得到用户查询词以及搜索最终页的标题和文本标识,计算查询改写候选词库中每个候选词与查询词的相关度,根据相关度设定标准阀值,过滤器根据标准阈值过滤掉相关性弱的词,选取相关度强的词作为查询扩展词,搜索引擎根据输入的关键词对应的查询扩展词进一步搜索。
2.根据权利要求1所述的方法,其特征在于,所述词向量模型为,以对数似然函数L为目标函数,根据当前查询词w,当前词的上下文标记contest(w),调用公式: 确定目标函数对其上下文中的词进行预测,根据公式对查询词w的向量v(w)迭代更新,训练出查询词的更新词向量
w
v‘(w),再根据余弦相似度计算出查询词的相关词,其中,α为学习率,l为查询词w所在哈弗曼树中的层次,θj为词w在第j层的参数估计,c为所有词。
3.根据权利要求1所述的方法,其特征在于,所述相关度为在查询词出现时查询改写候选词库中该候选词也出现的概率系数;根据相关度标准阀值,筛选出大于标准阀值的相关词,得到查询扩展词构建新的查询改写候选词库。
4.根据权利要求1所述的方法,其特征在于,进行相关词筛选包括:根据搜索日志统计查询词出现的次数N(qi),在搜索最终页的标题和内容中,统计搜索日志中该查询词的每一个相关词出现的次数N(sij),根据公式: 计算当输入查询词qi时搜索日志中出现候选词sij的概率P(sij|qi);根据公式: 计算在含有查询词qi及其查询扩展词的查询语句中,同时含有另一查询词qk的概率;根据公式计算当输入查询语句Q时,将查询语句Q中的查询词qi改写为词sij的条件概率。
5.根据权利要求2所述的方法,其特征在于,确定目标函数进一步包括:每个词对应哈弗曼树中的一个叶节点,将叶节点上的每个词映射为词向量,路径对应唯一一个哈弗曼编码,根据词w的哈弗曼编码 词w的当前词向量v(w),w
词w所在哈弗曼树中的层次l,所在路径中第j-1层节点对应的编码 根据公式建立条件概率函数p(Context(w)|w),u为上下文中的词,j为第j层。