利索能及
我要发布
收藏
专利号: 2021100762255
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种异常文本识别方法,其特征在于,所述方法包括:对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;

调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本;

提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像;

使用目标检测算法对所述问题文本图像进行目标检测,得到多个目标检测框;

根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。

2.如权利要求1所述的异常文本识别方法,其特征在于,所述根据所述多个目标检测框识别所述多个第二问题文本中的异常文本包括:确定每个所述目标检测框中的词袋子向量;

判断每个词袋向量中是否存在与任意一个所述词袋子向量相同的目标词袋子向量;

当目标词袋向量中存在至少一个所述目标词袋子向量时,确定所述目标词袋向量对应的第二问题文本为异常文本。

3.如权利要求1所述的异常文本识别方法,其特征在于,所述调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本包括:采用异常文本识别模型对所述多个第一问题文本中的每个第一问题文本进行异常概率预测;

获取第一目标异常概率的多个第一候选问题文本、获取第二目标异常概率的多个第二候选问题文本及获取第三目标异常概率的多个第三候选问题文本,其中,所述第一目标异常概率<所述第二目标异常概率<所述第三目标异常概率;

计算每个所述第一候选问题文本与每个所述第二候选问题文本之间的第一文本相似度,及计算每个所述第三候选问题文本与每个所述第二候选问题文本之间的第二文本相似度;

根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本。

4.如权利要求3所述的异常文本识别方法,其特征在于,所述根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本包括:对于任意一个第二候选问题文本,获取多个所述第一文本相似度中大于预设相似度阈值的多个第一目标文本相似度,计算所述多个第一目标文本相似度的第一数量;

获取多个所述第二文本相似度中大于所述预设相似度阈值的多个第二目标文本相似度,计算所述多个第二目标文本相似度的第二数量;

计算多个所述第一文本相似度的第三数量,及计算多个所述第二文本相似度的第四数量;

当所述第一数量与所述第三数量的占比小于预设占比阈值,且所述第二数量与所述第四数量的占比小于所述预设占比阈值时,确定所述任意一个第二候选问题文本为所述第二问题文本。

5.如权利要求1至4中任意一项所述的异常文本识别方法,其特征在于,所述对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本包括:

提取每个待测文本的文本向量,根据所述文本向量对所述多个待测文本进行聚类,得到多个待测文本簇;

根据所述多个待测文本簇的质心计算平均质心;

计算每个待测文本簇的质心与所述平均质心之间的距离;

确定距离大于预设距离阈值的待测文本簇为问题文本簇;

确定所述问题文本簇中的多个待测文本为多个第一问题文本。

6.如权利要求5所述的异常文本识别方法,其特征在于,所述提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像包括:对每个所述第二问题文本进行分词处理,得到多个分词;

计算每个分词的TF‑IDF值;

根据每个所述第二问题文本中每个分词的IF‑IDF值计算所述第二问题文本的词袋向量;

对每个所述词袋向量进行降维处理得到标准词袋向量;

根据多个所述标准词袋向量生成问题文本图像。

7.如权利要求5所述的异常文本识别方法,其特征在于,所述方法还包括:提取所述异常文本中的多个异常词;

根据所述多个异常词计算所述异常文本的异常度;

当所述异常度大于预设异常度阈值时,获取发布所述异常文本的用户账号;

对所述用户账号进行封号处理。

8.一种异常文本识别装置,其特征在于,所述装置包括:聚类模型,用于对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;

调用模块,用于调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本;

生成模块,用于提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像;

检测模块,用于使用目标检测算法对所述问题文本图像进行目标检测,得到多个目标检测框;

识别模块,用于根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。

9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的异常文本识别方法。

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的异常文本识别方法。