利索能及
我要发布
收藏
专利号: 2019113368599
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种词嵌入表示方法,其特征在于,所述方法包括:

对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;

将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;

以及,将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;

结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示,所述结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示,包括;

基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值,所述基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值,包括:识别所述待处理文本中位于所述待表示词语的前后各N个词语,并记录各个词语与位置信息的对应关系,作为预设上下文环境;其中,所述位置信息用于表示与所述待表示词语的位置关系;

分别在所述同领域的数据样本和所述不限领域的数据样本中,基于各个词语与位置信息的对应关系,统计各个词语对应的出现次数;

基于各个词语对应的出现次数与预设关系权值,分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分;

基于所述上下文环境影响得分,分别为所述第一词向量和所述第二词向量设置权重值;

根据所述权重值、所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。

2.根据权利要求1所述的方法,其特征在于,所述对待处理文本进行分词处理,得到分词结果,包括:基于预先构建的专业词典,对待处理文本进行分词处理,得到分词结果。

3.一种词嵌入表示装置,其特征在于,所述装置包括:

分词模块,用于对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;

第一处理模块,用于将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;

第二处理模块,用于将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;

确定模块,用于结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示,所述确定模块包括:第一设置子模块,用于基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值,所述第一设置子模块包括:记录子模块,用于识别所述待处理文本中位于所述待表示词语的前后各N个词语,并记录各个词语与位置信息的对应关系,作为预设上下文环境;其中,所述位置信息用于表示与所述待表示词语的位置关系;

统计子模块,用于分别在所述同领域的数据样本和所述不限领域的数据样本中,基于各个词语与位置信息的对应关系,统计各个词语对应的出现次数;

第二确定子模块,用于基于各个词语对应的出现次数与预设关系权值,分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分;

第二设置子模块,用于基于所述上下文环境影响得分,分别为所述第一词向量和所述第二词向量设置权重值;

第一确定子模块,用于根据所述权重值、所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。

4.根据权利要求3所述的装置,其特征在于,所述分词模块,具体用于:

基于预先构建的专业词典,对待处理文本进行分词处理,得到分词结果。

5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1‑2任一项所述的方法。

6.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1‑2任一项所述的方法。