利索能及
我要发布
收藏
专利号: 2021108799370
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语料自动化获取方法,其特征在于,包括:获取语料库;其中,所述语料库中包括多篇文档;

解析并获取文档的词频矩阵,对词频矩阵中的每一个元素矩阵进行随机主题编号,得到每一元素矩阵对应的主题编号;将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值,将文档的主题概率分布结果作为待训练LDA模型的输出值,计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值,将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数;其中,所述模型参数用于在采样过程中估出文档的主题概率分布结果,并根据所述主题概率分布结果中的高频主题进行语料推荐;

接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据;

其中,每一对象的描述文本数据至少包括对象描述文本和对象画像标签;

解析并获取与每一对象的描述文本数据相应的描述词频矩阵,将各描述词频矩阵输入至所述LDA模型进行运算,得到与描述文本数据对应的预测主题概率分布结果;

根据与描述文本数据对应的预测主题概率分布结果,获取与描述文本数据分别对应的预测主题;以及

在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端;

其中,当接收到面试官与每一对象之间的面试过程所有数据,进行数据类型识别及文本转化处理,得到与每一对象对应的描述文本数据。

2.根据权利要求1所述的语料自动化获取方法,其特征在于,所述在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端之后,还包括:若接收到第二用户端上传的学习需求数据,获取所述学习需求数据相应的需求词频矩阵,将需求词频矩阵输入至所述LDA模型进行运算,得到与所述需求词频矩阵对应的需求主题概率分布结果;

根据所述需求主题概率分布结果中的最大概率值,获取与所述需求主题概率分布结果的需求预测主题。

3.根据权利要求1所述的语料自动化获取方法,其特征在于,所述解析并获取文档的词频矩阵,包括:

将每一文档分别依次进行分词,得到与每一文档分别对应的关键词集;

获取每一关键词集中每一关键词对应的词语ID和词频,由每一关键词的词语ID和词频组成每一关键词的矩阵元素,由每一关键词的矩阵元素组成对应关键词集的词频矩阵。

4.根据权利要求1所述的语料自动化获取方法,其特征在于,所述接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据之前,还包括:若检测到用户端上传的对象初始沟通数据,获取所述对象初始沟通数据中包括的数据类型;其中,所述数据类型包括图片数据、语音数据、文本数据、视频数据中的一种或多种组合;

若所述数据类型是语音数据,调用预先存储的语音识别模型,通过语音识别模型获取与所述初始沟通数据对应的第一识别文本数据;

若所述数据类型是图片数据,调用预先存储的图像识别模型,通过图像识别模型获取与所述初始沟通数据对应的第二识别文本数据;

若所述数据类型是文本数据,将所述对象初始沟通数据作为对应的第三识别文本数据;

若所述数据类型是视频数据,获取并分离得到对象初始沟通数据中的音频数据,调用预先存储的语音识别模型,通过语音识别模型获取与所述初始沟通数据对应的第四识别文本数据;

将所述第一识别文本数据、或第二识别文本数据、或第三识别文本数据、或第四识别文本数据依次经过分词、关键词抽取和用户画像标签转化,得到与所述对象初始沟通数据对应的描述文本数据。

5.根据权利要求1所述的语料自动化获取方法,其特征在于,所述解析并获取与每一对象的描述文本数据相应的描述词频矩阵,包括:获取所述描述文本数据中每一标签关键词对应的词语ID和词频,由每一标签关键词的词语ID和词频组成每一标签关键词的标签矩阵元素,由每一标签关键词的标签矩阵元素组成对应的描述词频矩阵。

6.根据权利要求2所述的语料自动化获取方法,其特征在于,所述根据所述需求主题概率分布结果中的最大概率值,获取与所述需求主题概率分布结果的需求预测主题之后,还包括:

在所述语料库中获取具有所述需求预测主题的语料,组成第二目标语料子集,将第二目标语料子集发送至第二用户端。

7.根据权利要求1所述的语料自动化获取方法,其特征在于,所述在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,包括:在所述语料库中获取与各预测主题有相同主题且语料推荐次数排名未超出预设排名阈值的语料,组成与各预测主题分别对应的第一目标语料子集。

8.一种语料自动化获取装置,其特征在于,包括:语料库定位单元,用于获取语料库;其中,所述语料库中包括多篇文档;

模型训练单元,用于解析并获取文档的词频矩阵,对词频矩阵中的每一个元素矩阵进行随机主题编号,得到每一元素矩阵对应的主题编号;将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值,将文档的主题概率分布结果作为待训练LDA模型的输出值,计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值,将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数;其中,所述模型参数用于在采样过程中估出文档的主题概率分布结果,并根据所述主题概率分布结果中的高频主题进行语料推荐;

描述文本数据获取单元,用于接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据;其中,每一对象的描述文本数据至少包括对象描述文本和对象画像标签;

分布结果获取单元,用于解析并获取与每一对象的描述文本数据相应的描述词频矩阵,将各描述词频矩阵输入至所述LDA模型进行运算,得到与描述文本数据对应的预测主题概率分布结果;

预测主题获取单元,用于根据与描述文本数据对应的预测主题概率分布结果,获取与描述文本数据分别对应的预测主题;以及第一目标语料子集获取单元,用于在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端;

其中,当接收到面试官与每一对象之间的面试过程所有数据,进行数据类型识别及文本转化处理,得到与每一对象对应的描述文本数据。

9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语料自动化获取方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的语料自动化获取方法。