1.一种文本分类语料库的构建方法,其特征在于,包括:获取用户提供的文本数据;
获取网页主题的标签数据以及网页内容数据;
将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量;
将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量;
将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵;
将所述查询特征向量与所述多尺度网页特征矩阵进行相乘以得到分类特征向量;
对所述分类特征向量进行秩序先验化以得到优化分类特征矩阵;
将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示文本的主题的标签;
基于所述分类结果输出语料库。
2.根据权利要求1所述的文本分类语料库的构建方法,其特征在于,将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量,包括:对所述用户提供的文本数据进行分词处理以获得多个用户词;
将所述多个用户词通过嵌入层以将所述多个用户词中各个用户词转化为用户词嵌入向量以得到用户词嵌入向量的序列,其中,所述嵌入层使用可学习的嵌入矩阵对所述各个用户词进行嵌入编码;
将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量;
将所述多个用户特征向量进行级联以得到所述查询特征向量。
3.根据权利要求2所述的文本分类语料库的构建方法,其特征在于,将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量,包括:将所述用户词嵌入向量的序列排列为输入向量;
将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;
计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;
对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;
将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;
将所述自注意力特征矩阵与以所述用户词嵌入向量的序列中各个用户词嵌入向量作为值向量分别进行相乘以得到所述多个用户特征向量。
4.根据权利要求3所述的文本分类语料库的构建方法,其特征在于,将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量,包括:分别将所述网页主题的标签数据以及网页内容数据通过所述基于转换器的上下文编码器的嵌入层进行独热编码,以将所述网页主题的标签数据以及网页内容数据分别转化为输入向量以获得输入向量的序列;
使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量。
5.根据权利要求4所述的文本分类语料库的构建方法,其特征在于,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量,包括:计算所述输入向量的序列与所述输入向量的序列中各个输入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;
分别以所述多个概率值中各个概率值作为权重对所述输入向量的序列中各个输入向量进行加权以得到所述多个网页特征向量。
6.根据权利要求5所述的文本分类语料库的构建方法,其特征在于,将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵,包括:使用所述卷积神经网络模型的各个混合卷积层在层的正向传递中分别对输入数据进行:基于第一卷积核对所述输入数据进行卷积处理以得到第一尺度特征图;
基于第二卷积核对所述输入数据进行卷积处理以得到第二尺度特征图,其中,所述第二卷积核为具有第一空洞率的空洞卷积核;
基于第三卷积核对所述输入数据进行卷积处理以得到第三尺度特征图,其中,所述第三卷积核为具有第二空洞率的空洞卷积核;
基于第四卷积核对所述输入数据进行卷积处理以得到第四尺度特征图,其中,所述第四卷积核为具有第三空洞率的空洞卷积核;
将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图进行级联以得到多尺度特征图;
对所述多尺度特征图进行池化处理以得到池化特征图;
对所述池化特征图进行激活处理以得到激活特征图;
其中,所述卷积神经网络模型的最后一个混合卷积层的输出为所述多尺度网页特征矩阵。
7.根据权利要求6所述的文本分类语料库的构建方法,其特征在于,将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图进行级联以得到多尺度特征图,包括:以如下级联公式将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图进行级联以得到多尺度特征图;
其中,所述级联公式为:
X=Concat[F1,F2,F3,F4]
其中,F1、F2、F3和F4分别表示所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图,Concat[·,·]表示级联函数。
8.根据权利要求7所述的文本分类语料库的构建方法,其特征在于,对所述分类特征向量进行秩序先验化以得到优化分类特征矩阵,包括:以高斯分布为先验分布,对所述分类特征向量进行基于先验分布的特征表达强化以得到高斯增强分类特征矩阵;
计算所述高斯增强分类特征矩阵中各个行向量与所述分类特征向量之间的互信息以得到多个互信息;
基于所述多个互信息与预定阈值之间的比较以得到秩序先验化掩码矩阵;
计算所述秩序先验化掩码矩阵与所述高斯增强分类特征矩阵之间的按位置点乘以得到优化分类特征矩阵。
9.根据权利要求8所述的文本分类语料库的构建方法,其特征在于,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示文本的主题的标签,包括:使用所述分类器以如下分类公式对所述优化分类特征矩阵进行处理以获得所述分类结果;
其中,所述分类公式为:O=softmax{(Wc,Bc)|Project(F)},其中Project(F)表示将所述优化分类特征矩阵投影为向量,Wc为权重矩阵,Bc表示偏置向量,softmax表示归一化指数函数,O表示所述分类结果。
10.一种文本分类语料库的构建系统,其特征在于,包括:文本数据获取模块,用于获取用户提供的文本数据;
网页数据获取模块,用于获取网页主题的标签数据以及网页内容数据;
文本编码模块,用于将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量;
网页编码模块,用于将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量;
混合卷积模块,用于将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵;
关联编码模块,用于将所述查询特征向量与所述多尺度网页特征矩阵进行相乘以得到分类特征向量;
优化模块,用于对所述分类特征向量进行秩序先验化以得到优化分类特征矩阵;
主题生成模块,用于将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示文本的主题的标签;
语料库生成模块,用于基于所述分类结果输出语料库。