利索能及
我要发布
收藏
专利号: 2022105476593
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种动态宽度最大化解码方法,应用于文本生成过程中,其特征在于,该方法包括如下步骤:根据语言模型处理模块生成的概率分布集合,选择候选集,具体包括:根据搜索宽度K限制候选集的数量;根据概率过滤参数P,从每个候选集的生成的概率分布中选择核心字符;

计算选择得到字符对应的生成该字符候选序列的概率序列得分;

选择得分最大的K个候选序列作为输出文本,其中K为搜索宽度;此外,对于每个候选序列最多选择K个候选集;

当候选序列由于概率过滤参数P的过滤而小于搜索宽度K时,不进行补齐;

对于语言模型输出的概率分布集合,从中选择最后一个字符的概率分布d:(i)从概率分布d中选择n个概率最大的字符,并限制这些字符的概率和小于P,n的大小由P决定,其中n为正整数,P为0‑1之间的一个数;

(ii)以搜索宽度K截取K个字符W;

(iii)对于K个字符W中的每个字符w:计算序列的信息分数,信息分数为所有字符信息量之和的平均值。

2.根据权利要求1所述的动态宽度最大化解码方法,其特征在于:按照搜索宽度和候选集计算得到的分数对候选序列进行更新。

3.根据权利要求1至2任意一项所述的动态宽度最大化解码方法,其特征在于:所述语言模型处理模块为Transformer语言模型处理模块。

4.一种文本生成方法,其特征在于:所述文本生成方法为密码猜测集生成方法;并且,在生成密码猜测集的过程中还包括如下步骤:

1)文本预处理步骤:采用文本词条化工具对数据集进行文本预处理,所述文本预处理包括数据清洗、文本转码或编码;

2)语言模型处理步骤:根据文本预处理的结果,训练语言模型处理模块,生成下一可能字符的概率表;

3)波束搜索解码步骤:根据权利要求1至3任意一项所述的动态宽度最大化解码方法,利用语言模型处理模块的输出结果动态调整解码时波束搜索的宽度,并从中采样以生成候选集;

4)碰撞步骤:清洗数据集,将生成的密码猜测集与密码测试集进行匹配碰撞。

5.一种存储介质,该存储介质上存储有计算机代码,其特征在于:处理器通过读取该存储介质上的计算机代码,以执行权利要求1~3任意一种所述的动态宽度最大化解码方法,或权利要求4所述的文本生成方法。