利索能及
我要发布
收藏
专利号: 2019111803213
申请人: OPPO广东移动通信有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种事件审计方法,其特征在于,包括:

获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集、验证集和测试集;

通过所述验证集对预先基于所述样本数据中的训练集创建的分类模型进行阈值参数调参验证,得到最佳阈值参数;

基于所述最佳阈值参数计算所述测试集的准确率;

其中,所述通过所述验证集对预先基于所述样本数据中的训练集创建的分类模型进行阈值参数调参验证,得到最佳阈值参数的步骤包括:对所述验证集进行预处理;

对预处理后的验证集进行语言类型识别;

根据识别的语言类型,使用对应的词库对所述验证集中的事件日志进行分词,得到验证集中每一条事件日志分词后的词组;

基于分词后的词组、预设的朴素贝叶斯分类器,并使用贝叶斯公式分别计算出验证集中每一条事件日志是高风险等级的后验概率和低风险等级的后验概率;

将两个概率归一化处理,得到验证集中每一条事件日志最终的高风险概率;

基于所述验证集中每一条事件日志最终的高风险概率以及预设的阈值参数计算所述验证集的准确率,选取验证集准确率最高的阈值参数作为最佳阈值参数。

2.根据权利要求1所述的事件审计方法,其特征在于,所述获取预设的样本数据的步骤之前还包括:构建事件日志数据库,收集各类事件日志存储至所述事件日志数据库;

对所述事件日志数据库中的每一条事件日志进行打标签处理,所述标签包括:高风险事件标签和低风险事件标签;

将打标签处理后的数据组成样本数据;

将所述样本数据分成训练集、验证集和测试集。

3.根据权利要求2所述的事件审计方法,其特征在于,所述通过所述验证集对预先基于所述样本数据中的训练集创建的分类模型进行阈值参数调参验证,得到最佳阈值参数的步骤之前还包括:基于所述训练集创建分类模型,具体包括:

对所述训练集进行预处理;

对预处理后的训练集进行语言类型识别;

根据识别的语言类型,使用对应的词库对所述训练集中的事件日志进行分词,得到每一条事件日志分词后的词组;

统计分词后的词组出现的频率,建立朴素贝叶斯分类器。

4.根据权利要求3所述的事件审计方法,其特征在于,所述统计分词后的词组出现的频率,建立朴素贝叶斯分类器的步骤包括:通过预设词库过滤掉各词组中无语义的辅助词语;

统计分词后的词组出现的频率;

基于分词后的词组出现的频率,计算各词组对应的高风险事件概率、低风险事件概率,以及高风险事件词组的总概率和低风险事件词组的总概率,构建所述训练数据的分类模型,得到朴素贝叶斯分类器。

5.根据权利要求3所述的事件审计方法,其特征在于,所述对所述训练集进行预处理包括:过滤掉所述训练集中事件日志的无语义符号,以及对事件日志进行英文字母大小写脱敏。

6.根据权利要求1所述的事件审计方法,其特征在于,所述基于所述最终的高风险概率以及预设的阈值参数计算所述验证集的准确率的步骤包括:从预设的多个阈值参数中选取一个阈值参数;

对于所述验证集中的每一条事件日志,将每一条事件日志的最终的高风险概率分别与选取的一个阈值参数进行比较,得到各事件日志对应的预测结果,所述预测结果为识别此事件为高风险事件或低风险事件;

将各事件日志对应的预测结果对应与各事件日志的标签进行比较,计算得到所述验证集对应当前选取的阈值参数的一个准确率;

从预设的多个阈值参数中选取另一个阈值参数,再次计算得到验证集对应当前选取的阈值参数的一个准确率;以此类推,直到预设的多个阈值参数均比较完毕,得到验证集的多个准确率。

7.根据权利要求1所述的事件审计方法,其特征在于,所述基于所述最佳阈值参数计算所述测试集的准确率的步骤包括:对所述测试集进行预处理;

对预处理后的测试集进行语言类型识别;

根据识别的语言类型,使用对应的词库对所述测试集中的事件日志进行分词,得到测试集中每一条事件日志分词后的词组;

基于分词后的词组、所述朴素贝叶斯分类器,并使用贝叶斯公式分别计算出所述测试集中每一条事件日志是高风险等级的后验概率和低风险等级的后验概率;

将两个概率归一化处理,得到所述测试集中每一条事件日志最终的高风险概率;

基于所述测试集中每一条事件日志最终的高风险概率以及所述最佳阈值参数计算所述测试集的准确率。

8.根据权利要求1‑7中任一项所述的事件审计方法,其特征在于,所述基于所述最佳阈值参数计算所述测试集的准确率的步骤之后还包括:重新选取测试集;

计算重新选取的测试集的准确率;

将多次计算出的测试集的准确率取平均值。

9.根据权利要求3‑7中任一项所述的事件审计方法,其特征在于,所述方法还包括:根据测试集的准确率,获取误报数据;

对所述误报数据进行误差分析;

根据误差分析结果更新所述分类模型及对应的词库。

10.一种事件审计装置,其特征在于,所述事件审计装置包括:获取模块,用于获取预设的样本数据,所述样本数据包括各类事件日志构成的训练集、验证集和测试集;

验证模块,用于通过所述验证集对预先基于所述样本数据中的训练集创建的分类模型进行阈值参数调参验证,得到最佳阈值参数;

计算模块,用于基于所述最佳阈值参数计算所述测试集的准确率;

其中,所述验证模块,还用于对所述验证集进行预处理;对预处理后的验证集进行语言类型识别;根据识别的语言类型,使用对应的词库对所述验证集中的事件日志进行分词,得到验证集中每一条事件日志分词后的词组;基于分词后的词组、预设的朴素贝叶斯分类器,并使用贝叶斯公式分别计算出验证集中每一条事件日志是高风险等级的后验概率和低风险等级的后验概率;将两个概率归一化处理,得到验证集中每一条事件日志最终的高风险概率;和,基于所述验证集中每一条事件日志最终的高风险概率以及预设的阈值参数计算所述验证集的准确率,选取验证集准确率最高的阈值参数作为最佳阈值参数。

11.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的事件审计程序,所述事件审计程序被所述处理器执行时实现如权利要求1‑9中任一项所述的事件审计方法的步骤。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有事件审计程序,所述事件审计程序被处理器执行时实现如权利要求1‑9中任一项所述的事件审计方法的步骤。