利索能及
我要发布
收藏
专利号: 2022102818828
申请人: 深圳尚米网络技术有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,

所述文本检测引擎包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块;所述第一合规校验模块包括:黑白名单过滤模块、关键词检测模块、用户检测模块、风险分析模块;所述第一合规校验模块用于黑白名单过滤、关键词检测、用户检测、风险因数计算;所述第二合规校验模块用于恶意文本检验;所述数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果;

所述文本检测引擎通过以下步骤实现用户生成文本内容的合规校验:

步骤S1、文本检测引擎获取用户生成文本请求,将用户生成文本请求信息输入第一合规校验模块,得到第一合规检验结果;所述用户生成文本请求信息包括用户发布文本内容、文本关联主题信息、用户信息及设备环境信息;所述第一合规检验结果为风险因数;

步骤S2、当风险因数小于风险阈值N0时,文本检测引擎准许用户生成文本请求;当风险因数大于风险阈值N1时,文本检测引擎拒绝用户生成文本请求;当风险因数介于N0、N1之间时,文本检测引擎调用第二合规校验模块,并将用户生成文本请求信息及风险因数输入第二合规校验模块;

步骤S3、第二合规校验模块对输入数据进行恶意文本检验,得到恶意文本检验结果;

步骤S4、文本检测引擎根据恶意文本检测结果准许或拒绝用户生成文本请求;

其中,所述步骤S3包括:

步骤S31、第二合规校验模块提取用户生成文本请求信息中的用户发布文本内容、文本关联主题文本内容,并对用户发布文本内容和文本关联主题文本内容数据进行相似性检测,得到主题相似度;

步骤S32、第二合规校验模块提取用户发布文本内容的文本特征信息,并将文本特征信息、主题相似度、风险因数输入至已训练的恶意文本检验模型进行恶意文本检验;

步骤S33、第二合规检验模块输出恶意文本检验结果,所述恶意文本检验结果表征用户生成文本是否包含恶意诱导违规情况。

2.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述数据库模块包括违规关键词数据库、用户黑白名单数据库、IP黑白名单数据库及引擎参数数据库。

3.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,步骤S1包括:步骤S11、当用户生成文本并发出用户生成文本请求时,文本检测引擎调用数据接口模块获取用户生成文本请求;

步骤S12、文本检测引擎调用第一合规校验模块中的黑白名单过滤模块从用户生成文本请求中提取用户id、IP数据、并分别在用户黑白名单数据库、IP黑白名单数据库中进行查询;若用户id或IP命中白名单,则输出黑白名单校验结果为“0”;若用户id或IP命中黑名单,则输出黑白名单校验结果为“1”;若用户id、IP均未在用户黑白名单数据库、IP黑白名单数据库中,则输出黑白名单校验结果为“2”;

步骤S13、当黑白名单校验结果为“0”或“1”时,风险因数相应置为“0”或“1”,并输出风险因数;当黑白名单校验结果为“2”时,文本检测引擎调用第一合规校验模型中的关键词检测模块、用户检测模块分别对用户生成文本请求进行关键词检测和用户检测得到关键词违规特征、用户风险概率数值,随后调用风险分析模块根据关键词违规特征、用户风险概率数值计算风险因数。

4.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述关键词检测模块通过以下方式进行关键词检测:

关键词检测模块对输入的用户发布文本内容进行分词处理,得到关键词列表,并从关键词列表中删除安全词组;将关键词列表中的元素分别在违规关键词数据库中进行查询检测,得到关键词违规特征,并输出至风险分析模块。

5.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述用户检测模块通过以下方式进行用户检测:

用户检测模块对输入的用户信息及设备环境信息进行特征提取,得到用户特征数据,并将用户特征数据输入至已训练的用户分析模型,得到用户风险概率数值;

用户检测结果为用户风险概率数值,表征发出用户生成文本请求的用户是否存在恶意发布风险,其中“0”代表“不违规”、“1”代表“违规”、其余数值代表“存在违规可能”。

6.根据权利要求5所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述用户分析模型通过以下方式得到:对原始用户操作数据集进行数据清洗和特征提取获得用户分析模型数据集;将所述用户分析模型数据集拆分为用户分析模型训练集和用户分析模型测试集;采用机器学习算法依靠用户分析模型训练集训练用户分析模型,并利用用户分析模型测试集对用户分析模型进行评估;调整参数不断训练模型直到召回率和准确率满足预设阈值,输出用户分析模型。

7.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本

检测引擎,其特征在于,步骤S31包括:

步骤S311、分别提取所述用户发布文本内容和文本关联主题文本内容的关键词和词频,得到包含关键词和词频的二维元组的第一文本特征集合和第二文本特征集合;

步骤S312、对第一文本特征集合的关键词均按照hash算法转化为二进制的hash字符串,得到包含关键词hash字符串和词频的二元组的第一文本hash特征集合;

步骤S322、对第一文本hash特征集合中的每一个二元组均按照以下方式处理得到第一文本权值特征集合:二元组关键词hash字符串的每一位乘以对应词频得到一维元组;其中当前位为0时词频乘‑1,当前位为1时词频乘1;

步骤S313、将第一文本权值特征集合所有元组中的数字按位相加,并对每一位做如下映射得到第一文本SimHash值:若当前位的数值大于0,则该位数置为1,否则该位数置为0;

步骤S314、按照步骤S312、步骤S313的方法对步骤S311中得到的第二文本特征集合进行处理,得到第二文本SimHash值;

步骤S315、计算第一文本SimHash值与第二文本SimHash值的汉明距离并归一化得到主题相似度。

8.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述恶意文本检验模型通过以下方式得到:

通过人工筛选标注从原始文本数据及对应文本的原始用户数据得到原始恶意文本检验模型数据集;将原始恶意文本检验数据集输入第一合规检验模型对原始恶意文本检验数据集的每一条数据进行风险因数计算,将风险因数并入原始恶意文本检验数据集;将原始恶意文本检验数据集中的原始文本数据按照所述步骤S31方法计算主题相似度,将主题相似度并入原始恶意文本检验数据集;从原始恶意文本检验数据集中提取得到原始恶意文本检验模型数据集;将原始恶意文本检验模型数据集拆分为恶意文本检验训练集和恶意文本检验测试集;采用机器学习算法依靠恶意文本检验训练集训练综合文本检测模型,并利用恶意文本检验测试集对恶意文本检验模型进行评估;调整参数不断训练模型直到召回率和准确率满足预设阈值,输出恶意文本检验模型。

9.根据权利要求8所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述机器学习算法包括:逻辑回归算法、决策树、遗传算法、支持向量机、K‑means算法、随机森林和朴素贝叶斯算法。