1.一种数据集获取方法,其特征在于,所述方法包括:获取消息级别的对话文本数据;
对消息级别的对话文本数据进行预处理;其中所述预处理包括将所述对话文本数据中对应消息文本数据中的英文替换为中文和将所述消息文本数据中的数字、标点符号、表情及乱码过滤掉;
根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果;
将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据;
根据用户对所述会话文本数据中质检点的修改请求来更新质检结果;
按照预设格式从更新后的数据中提取出数据集;
更新后的数据中包括多条消息文本数据、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注,所述预设格式包括:消息文本数据对应的具体消息内容、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注;
所述按照预设格式从更新后的数据中提取出数据集,包括:对于每条消息文本数据,判断消息文本数据对应具体消息内容的质检点结果是否有多个或者质检点结果是否为空;
若所述消息文本数据对应具体消息内容的质检点结果为多个,根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应,形成以单个质检点为质检点结果且符合预设格式的数据;
若质检点结果为空,将消息文本数据对应的具体消息内容的质检点结果标记为合规标识;
提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记,包括:将所述对话文本数据进行分词;
对分词后的数据建立倒排索引;
根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记。
3.根据权利要求1所述的方法,其特征在于,所述将标记后的包括质检点的对话文本数据加工整理成包括质检点的会话级别的会话文本数据,包括:从标记后的包括质检点的对话文本数据中查找每条消息文本数据中的发送人和接收人,将发送人和接收人作为一个集合;
按照集合对消息文本数据进行分组;
将每组的数据按照发送消息的时间进行排序并按照预定格式显示,以形成包括质检点的会话级别的会话文本数据。
4.一种利用数据集分类的方法,其特征在于,所述方法包括:利用如权利要求1-3任一项所述的方法提取出的数据集训练分类模型,并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记,以得到质检结果;
根据用户对所述对话文本数据中质检点的修改请求来更新质检结果;
根据更新后的数据更新分类模型;
利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记,以得到质检结果。
5.一种数据集获取装置,其特征在于,所述装置包括:获取单元,用于获取消息级别的对话文本数据;
预处理单元,用于对消息级别的对话文本数据进行预处理;其中所述预处理包括将所述对话文本数据中对应消息文本数据中的英文替换为中文和将所述消息文本数据中的数字、标点符号、表情及乱码过滤掉;
标记单元,用于根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果;
整合单元,用于将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据;
质检更新单元,用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果;
提取单元,用于按照预设格式从更新后的数据中提取出数据集;
所述提取单元包括:
判断单元,用于对于每条消息文本数据,判断消息文本数据对应的具体消息内容的质检点结果是否有多个或者质检点结果是否为空;
分隔单元,用于若所述质检点结果为多个,根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应,形成以单个质检点为质检点结果且符合预设格式的数据;
添加标记单元,用于若质检点结果为空,将消息文本数据对应的具体消息内容的质检点结果标记为合规标识;
数据集提取单元,用于提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。
6.根据权利要求5所述的装置,其特征在于,所述标记单元,包括:分词单元,用于将所述对话文本数据进行分词;
索引单元,用于对分词后的数据建立倒排索引;
匹配标记单元,用于根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记。
7.一种利用数据集分类的装置,其特征在于,所述装置包括:分类单元,用于利用包括如权利要求5-6任一项所述的装置对应的单元提取出的数据集训练分类模型,并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记,以得到质检结果;
质检更新单元,还用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果;
模型更新单元,用于根据更新后的数据更新分类模型;
分类单元,还用于利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记,以得到质检结果。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-3任一项所述的数据集获取方法或者以执行如权利要求4所述的利用数据集分类的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1-3任一项所述的数据集获取方法或者实现如权利要求4所述的利用数据集分类的方法。