利索能及
我要发布
收藏
专利号: 2018102412269
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本数据处理方法,其特征在于,所述方法包括:获取Excel数据源文件,其中,所述Excel数据源文件中保存的是消息级别的对话文本数据;

将所述Excel数据源文件导入到数据库;

将导入到数据库中的所述Excel数据源文件对应的数据进行预处理;

将预处理后的数据整合成会话级别的会话文本数据。

2.根据权利要求1所述的方法,其特征在于,所述Excel数据源文件是压缩过的XML格式文件,所述将所述Excel数据源文件导入到数据库,包括:利用开放源码函式库读取并解压Excel数据源文件以得到XML格式文件;

将所述XML格式文件解析成多行的数据;

利用开放源码函式库,通过连接池将解析后的多行的数据保存到数据库。

3.根据权利要求1所述的方法,其特征在于,所述将导入到数据库中的所述Excel数据源文件对应的数据进行预处理,包括:将导入到数据库中的数据去重;

从去重后的数据中筛选出预设消息类型的消息文本数据。

4.根据权利要求1所述的方法,其特征在于,所述将预处理后的数据整合成会话级别的会话文本数据,包括:

从预处理后的数据中查找每条消息文本数据中的发送人和接收人,将发送人和接收人作为一个集合;

按照集合对消息文本数据进行分组;

将每组中的消息文本数据按照预定格式显示,以形成会话级别的会话文本数据。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对会话级别的会话文本数据建立倒排索引;

根据接收到的查询关键字,利用建立的倒排索引,从所述会话文本数据中筛选出与所述查询关键字匹配的会话文本数据。

6.一种文本数据处理装置,其特征在于,所述文本数据处理装置包括:获取单元,用于获取Excel数据源文件,其中,所述Excel数据源文件中保存的是消息级别的消息文本数据;

导入单元,用于将所述Excel数据源文件导入到数据库;

预处理单元,用于将导入到数据库中的所述Excel数据源文件对应的数据进行预处理;

整合单元,用于将预处理后的数据整合成会话级别的会话文本数据。

7.根据权利要求6所述的装置,其特征在于,所述Excel数据源文件是压缩过的XML格式文件,所述导入单元,包括:

解压单元,用于利用开放源码函式库读取并解压Excel数据源文件以得到XML格式文件;

解析单元,用于将所述XML格式文件解析成多行的数据;

保存单元,用于利用开放源码函式库,通过连接池将解析后的多行的数据保存到数据库。

8.根据权利要求6所述的装置,其特征在于,所述整合单元,包括:集合形成单元,用于从预处理后的数据中查找每条消息文本数据中的发送人和接收人,将发送人和接收人作为一个集合;

分组单元,用于按照集合对消息文本数据进行分组;

显示单元,用于将每组中的消息文本数据按照预定格式显示,以形成会话级别的会话文本数据。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器,以及与所述存储器相连的处理器;

所述存储器用于存储实现文本数据处理的计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1‑5任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1‑5任一项所述的方法。