利索能及
我要发布
收藏
专利号: 2018107093471
申请人: 武汉斗鱼网络科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本改写的方法,其特征在于,包括:

将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;

对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;

计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;

确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。

2.根据权利要求1所述的方法,其特征在于,所述计算所述第二分词集合中的每个分词的语义损失包括:通过如下公式计算所述第二分词集合中的每个分词的语义损失:其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0

0 0 0

是所述q 中的任一分词,所述wt是所述t对应的权重,所述f(t|t)为将所述t替换为所述t的收益。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:通过如下公式计算所述S(q):

其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数,norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数,norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过如下公式计算所述q在所述预设时长内的点击率:

其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:通过如下公式计算所述wt:

wt=idft*tft*it;

其中,tft为所述预设时长内所述t在所述q中出现的频率, N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率, 其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。

6.根据权利要求1或2所述的方法,其特征在于,所述将用户输入的目标文本进行分词,以得到第一分词集合包括:获取所述用户输入的目标文本;

通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。

7.根据权利要求1或2所述的方法,其特征在于,所述确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词之后,所述方法包括:按照预设规则对所述目标文本的改写候选词进行展示。

8.一种文本改写的装置,其特征在于,包括:

分词单元,用于将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;

改写单元,用于对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;

计算单元,用于计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;

确定单元,用于确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。

9.一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至7中任意一项所述的文本改写的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如权利要求1至7中任意一项所述的文本改写的方法的步骤。