利索能及
我要发布
收藏
专利号: 201910878031X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于机器学习的文本信息作者的识别方法,其特征在于,包括:

响应于用户端发送的识别请求,提取所述识别请求中包含的待判定的文本信息及待判定的作者;

对所述文本信息进行分词,获取所述待判定的文本信息的分词结果;

确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数;

将所述各词类的分词个数,依照预设的词类顺序排列,获取词类个数集合;

基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数,确定所述分词结果中文本不同的分词出现的频率;

将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列,获取所述分词结果中文本不同的分词出现的频率集合;其中,所述文本不同的分词出现的频率集合包含将各分词对应的词类上标于不同的分词上;

从预存的数据库中提取所述待判定的作者对应的依照所述预设的词类顺序排列的词类个数集合和文本不同的分词出现的频率集合;

将所述待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合输入预设的机器学习模型,获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果;所述预设的机器学习模型通过以下方式进行训练:

将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合;

预先确定每个待判定的文本信息的作者是否是该待判定的作者的结果;

将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型,获取由所述预设的机器学习模型输出的是否为所述待判定的作者的判断结果,将所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较,如不一致,则调整所述预设的机器学习模型的参数,使所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

2.根据权利要求1所述的基于机器学习的文本信息作者的识别方法,其特征在于,所述确定各文本不同的分词出现的次数,包括:确定所述分词结果中文本不同的分词结果;

针对所述文本不同的分次结果中任一分词结果,在所述分词结果中确定该文本不同的分词结果出现的次数。

3.根据权利要求1所述的基于机器学习的文本信息作者的识别方法,其特征在于,所述确定各词类的分词个数,包括:将所述分词结果中每个分词与预设的数据字典库中的分词进行比对,判断是否相同,若相同,则将所述预设的数据字典库中对应的分词所属词类确定为所述分词结果中分词对应的词类;

基于所述分词结果中每个分词对应的词类,确定所述各词类的分词个数。

4.根据权利要求1所述的基于机器学习的文本信息作者的识别方法,其特征在于,在所述获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后,还包括:若所述预设的机器学习模型输出的所述待判定的文本信息的作者是所述待判定的作者,则提取所述待判定的作者的历史记录,若所述待判定的作者的历史记录中包含有多个处罚措施且正处于处罚期内,则将所述待判定的文本信息实施上述所述待判定的作者正处于处罚期内的处罚措施。

5.根据权利要求1所述的基于机器学习的文本信息作者的识别方法,其特征在于,在所述获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后,还包括:若所述预设的机器学习模型输出的所述待判定的文本信息的作者不是所述待判定的作者,则从预存的数据库中提取其他作者对应的词类个数集合和文本不同的分词出现的频率集合;

基于所述其他作者对应的词类个数集合和文本不同的分词出现的频率集合、所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合与预设的机器学习模型,确定所述待判定的文本信息对应的作者。

6.一种基于机器学习的文本信息作者的识别装置,其特征在于,包括:

第一获取单元,用于响应于用户端发送的识别请求,提取所述识别请求中包含的待判定的文本信息及待判定的作者;

第二获取单元,用于对所述文本信息进行分词,获取所述待判定的文本信息的分词结果;

第一确定单元,用于确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数;

第三获取单元,用于将所述各词类的分词个数,依照预设的词类顺序排列,获取词类个数集合;

第二确定单元,用于基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数,确定所述分词结果中文本不同的分词出现的频率;

第四获取单元,用于将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列,获取所述分词结果中不同的分词出现的频率集合;其中,所述文本不同的分词出现的频率集合包含将各分词对应的词类上标于不同的分词上;

第五获取单元,用于从预存的数据库中提取所述待判定的作者对应的依照所述预设的词类顺序排列的词类个数集合和文本不同的分词出现的频率集合;

第三确定单元,用于将所述待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型,获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果;

所述预设的机器学习模型通过以下方式进行训练:

将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合;

预先确定每个待判定的文本信息的作者是否是该待判定的作者的结果;

将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型,获取由所述预设的机器学习模型输出的是否为所述待判定的作者的判断结果,将所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较,如不一致,则调整所述预设的机器学习模型的参数,使所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于机器学习的文本信息作者的识别方法。

8.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于机器学习的文本信息作者的识别方法。