买专利、卖专利、专利购买、专利交易、专利出售、高企申报-异常文本识别方法、装置、计算机设备及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

异常文本识别方法、装置、计算机设备及存储介质

面议

专利号： 2021100762255

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种异常文本识别方法，其特征在于，所述方法包括：对多个待测文本进行聚类，并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本；

调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本；

提取每个所述第二问题文本的词袋向量，并基于多个所述词袋向量生成问题文本图像；

使用目标检测算法对所述问题文本图像进行目标检测，得到多个目标检测框；

根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。

2.如权利要求1所述的异常文本识别方法，其特征在于，所述根据所述多个目标检测框识别所述多个第二问题文本中的异常文本包括：确定每个所述目标检测框中的词袋子向量；

判断每个词袋向量中是否存在与任意一个所述词袋子向量相同的目标词袋子向量；

当目标词袋向量中存在至少一个所述目标词袋子向量时，确定所述目标词袋向量对应的第二问题文本为异常文本。

3.如权利要求1所述的异常文本识别方法，其特征在于，所述调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本包括：采用异常文本识别模型对所述多个第一问题文本中的每个第一问题文本进行异常概率预测；

获取第一目标异常概率的多个第一候选问题文本、获取第二目标异常概率的多个第二候选问题文本及获取第三目标异常概率的多个第三候选问题文本，其中，所述第一目标异常概率<所述第二目标异常概率<所述第三目标异常概率；

计算每个所述第一候选问题文本与每个所述第二候选问题文本之间的第一文本相似度，及计算每个所述第三候选问题文本与每个所述第二候选问题文本之间的第二文本相似度；

根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本。

4.如权利要求3所述的异常文本识别方法，其特征在于，所述根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本包括：对于任意一个第二候选问题文本，获取多个所述第一文本相似度中大于预设相似度阈值的多个第一目标文本相似度，计算所述多个第一目标文本相似度的第一数量；

获取多个所述第二文本相似度中大于所述预设相似度阈值的多个第二目标文本相似度，计算所述多个第二目标文本相似度的第二数量；

计算多个所述第一文本相似度的第三数量，及计算多个所述第二文本相似度的第四数量；

当所述第一数量与所述第三数量的占比小于预设占比阈值，且所述第二数量与所述第四数量的占比小于所述预设占比阈值时，确定所述任意一个第二候选问题文本为所述第二问题文本。

5.如权利要求1至4中任意一项所述的异常文本识别方法，其特征在于，所述对多个待测文本进行聚类，并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本包括：

提取每个待测文本的文本向量，根据所述文本向量对所述多个待测文本进行聚类，得到多个待测文本簇；

根据所述多个待测文本簇的质心计算平均质心；

计算每个待测文本簇的质心与所述平均质心之间的距离；

确定距离大于预设距离阈值的待测文本簇为问题文本簇；

确定所述问题文本簇中的多个待测文本为多个第一问题文本。

6.如权利要求5所述的异常文本识别方法，其特征在于，所述提取每个所述第二问题文本的词袋向量，并基于多个所述词袋向量生成问题文本图像包括：对每个所述第二问题文本进行分词处理，得到多个分词；

计算每个分词的TF‑IDF值；

根据每个所述第二问题文本中每个分词的IF‑IDF值计算所述第二问题文本的词袋向量；