1.基于深层次语义信息的文本话题匹配方法,其特征在于,包括:获取目标新闻文本,将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体;
通过特征工程对实体进行筛选,获取关键实体;具体包括:根据实体,获取每个实体的第一权重;计算每个实体的词频,根据词频,获取每个实体的第二权重;筛选实体中的不合群词,获取每个实体的第三权重;计算目标新闻文本中句子和各实体的相似性,获取每个实体的第四权重;
根据第一权重、第二权重、第三权重和第四权重,获取每个实体的组合特征权重,根据组合特征权重对实体进行排序,获取关键实体;所述第一权重为词频‑逆文档权重;
将目标新闻文本输入预设的预训练语言模型进行处理,获取文本摘要;
将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量,将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型,获取文本话题匹配结果;具体包括:通过LSTM网络,将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量;
根据深层次语义信息特征向量,获取深层次语义信息拼接向量;
根据目标新闻文本,获取文本拼接向量;
将深层次语义信息拼接向量和文本拼接向量拼接,获取拼接向量;
将拼接向量输入softmax层进行处理,获取文本话题匹配结果;
所述将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体包括:对目标新闻文本进行向量化处理,获取目标新闻文本中每个字的初始表示向量;
对初始表示向量进行特征提取,获取目标新闻文本中每个句子的特征向量;
构造信息矩阵,基于信息矩阵对特征向量进行卷积编码,获取不同的网格表征;
通过预测器对网格表征预测词对关系,获取目标新闻文本的实体;
所述信息矩阵包括距离信息矩阵、词对信息矩阵和区域信息矩阵,所述距离信息矩阵用于表示词对中每个字之间的距离,所述词对信息矩阵用于表示经范数层输出的词对,所述区域信息矩阵用于表示词对的所在区域。
2.如权利要求1所述的基于深层次语义信息的文本话题匹配方法,其特征在于,所述预训练语言模型为BART模型。
3.如权利要求1所述的基于深层次语义信息的文本话题匹配方法,其特征在于,所述根据深层次语义信息特征向量,获取深层次语义信息拼接向量包括:对深层次语义信息特征向量进行按位相减操作并取绝对值,获取深层次语义信息特征向量之间的差异,并将深层次语义信息特征向量和深层次语义信息特征向量之间的差异拼接,获取深层次语义信息拼接向量。
4.基于深层次语义信息的文本话题匹配系统,其特征在于,包括:关键实体获取模块,被配置为:获取目标新闻文本,将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体;
通过特征工程对实体进行筛选,获取关键实体;具体包括:根据实体,获取每个实体的第一权重;计算每个实体的词频,根据词频,获取每个实体的第二权重;筛选实体中的不合群词,获取每个实体的第三权重;计算目标新闻文本中句子和各实体的相似性,获取每个实体的第四权重;
根据第一权重、第二权重、第三权重和第四权重,获取每个实体的组合特征权重,根据组合特征权重对实体进行排序,获取关键实体;所述第一权重为词频‑逆文档权重;
文本摘要获取模块,被配置为:将目标新闻文本输入预设的预训练语言模型进行处理,获取文本摘要;
文本话题匹配模块,被配置为:将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量,将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型,获取文本话题匹配结果;具体包括:通过LSTM网络,将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量;
根据深层次语义信息特征向量,获取深层次语义信息拼接向量;
根据目标新闻文本,获取文本拼接向量;
将深层次语义信息拼接向量和文本拼接向量拼接,获取拼接向量;
将拼接向量输入softmax层进行处理,获取文本话题匹配结果;
所述将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体包括:对目标新闻文本进行向量化处理,获取目标新闻文本中每个字的初始表示向量;
对初始表示向量进行特征提取,获取目标新闻文本中每个句子的特征向量;
构造信息矩阵,基于信息矩阵对特征向量进行卷积编码,获取不同的网格表征;
通过预测器对网格表征预测词对关系,获取目标新闻文本的实体;
所述信息矩阵包括距离信息矩阵、词对信息矩阵和区域信息矩阵,所述距离信息矩阵用于表示词对中每个字之间的距离,所述词对信息矩阵用于表示经范数层输出的词对,所述区域信息矩阵用于表示词对的所在区域。
5.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑3任一项所述基于深层次语义信息的文本话题匹配方法的步骤。
6.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑3任一项所述基于深层次语义信息的文本话题匹配方法的步骤。