利索能及
我要发布
收藏
专利号: 2024103144145
申请人: 安徽克莱因信息技术有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2024-12-24
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大数据的信息咨询服务系统,其特征在于,包括:咨询问题采集模块,用于获取政务咨询问题;

分词模块,用于对所述政务咨询问题进行分词处理以得到政务咨询词的序列;

词嵌入模块,用于将所述政务咨询词的序列通过词嵌入层以得到政务咨询词嵌入向量的序列;

咨询问题语义理解模块,用于将所述政务咨询词嵌入向量的序列通过基于Transformer模块和BiLSTM模型的语义编码器以得到政务咨询问题语义理解特征向量;

备选答案获取模块,用于获取第一备选答案;

备选答案语义理解模块,用于对所述第一备选答案进行分词处理后通过所述词嵌入层和所述基于Transformer模块和BiLSTM模型的语义编码器以得到第一备选答案语义理解特征向量;

语义关联模块,用于对所述第一备选答案语义理解特征向量和所述政务咨询问题语义理解特征向量进行关联编码以得到语义匹配特征矩阵;以及备选答案返回检测模块,用于将所述语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否返回所述第一备选答案;

所述系统还包括用于对所述基于Transformer模块和BiLSTM模型的语义编码器和所述分类器进行训练的训练模块;

所述训练模块,包括:

训练数据采集单元,用于获取训练数据,所述训练数据包括训练政务咨询问题,训练第一备选答案,以及,所述是否返回所述第一备选答案的真实值;

训练分词单元,用于对所述训练政务咨询问题进行分词处理以得到训练政务咨询词的序列;

训练词嵌入单元,用于将所述训练政务咨询词的序列通过所述词嵌入层以得到训练政务咨询词嵌入向量的序列;

训练咨询问题语义理解单元,用于将所述训练政务咨询词嵌入向量的序列通过所述基于Transformer模块和BiLSTM模型的语义编码器以得到训练政务咨询问题语义理解特征向量;

训练备选答案语义理解单元,用于对所述训练第一备选答案进行分词处理后通过所述词嵌入层和所述基于Transformer模块和BiLSTM模型的语义编码器以得到训练第一备选答案语义理解特征向量;

训练语义关联单元,用于对所述训练第一备选答案语义理解特征向量和所述训练政务咨询问题语义理解特征向量进行关联编码以得到训练语义匹配特征矩阵;

迭代优化单元,用于对所述训练语义匹配特征矩阵展开后的训练语义匹配特征向量进行迭代优化以得到优化训练语义匹配特征向量;

分类损失单元,用于将所述优化训练语义匹配特征向量通过所述分类器以得到分类损失函数值;以及训练单元,用于以所述分类损失函数值通过梯度下降的反向传播来对所述基于Transformer模块和BiLSTM模型的语义编码器和所述分类器进行训练;

所述迭代优化单元,用于:

以如下迭代优化公式对所述训练语义匹配特征矩阵展开后的训练语义匹配特征向量进行迭代优化以得到所述优化训练语义匹配特征向量;其中,所述迭代优化公式为:其中,vi是所述训练语义匹配特征向量的第i个特征值,φ(vi)表示特征值的概率化函数,即将特征值vi映射到[0,1]区间的概率化函数,p是通过分类器得到的类概率值,L是所述语义匹配特征向量的长度,且α是权重超参数,v'i是所述优化训练语义匹配特征向量的第i个特征值。

2.根据权利要求1所述的基于大数据的信息咨询服务系统,其特征在于,所述咨询问题语义理解模块,用于:将所述政务咨询词嵌入向量的序列输入所述语义编码器以得到多个政务咨询问题语义特征向量;以及将所述多个政务咨询问题语义特征向量进行级联以得到所述政务咨询问题语义理解特征向量。

3.根据权利要求2所述的基于大数据的信息咨询服务系统,其特征在于,所述备选答案语义理解模块,用于:对所述第一备选答案进行分词处理以得到第一备选答案词的序列;

将所述第一备选答案词的序列通过所述词嵌入层以得到第一备选答案词嵌入向量的序列;

将所述第一备选答案词嵌入向量的序列输入所述语义编码器以得到多个第一备选答案语义特征向量;以及将所述多个第一备选答案语义特征向量进行级联以得到所述第一备选答案语义理解特征向量。

4.根据权利要求3所述的基于大数据的信息咨询服务系统,其特征在于,所述语义关联模块,用于:以如下关联编码公式对所述第一备选答案语义理解特征向量和所述政务咨询问题语义理解特征向量进行关联编码以得到所述语义匹配特征矩阵;

其中,所述关联编码公式为:

其中,Va表示所述第一备选答案语义理解特征向量, 表示所述第一备选答案语义理解特征向量的转置向量,Vb表示所述政务咨询问题语义理解特征向量,M表示所述语义匹配特征矩阵, 表示向量相乘。

5.根据权利要求4所述的基于大数据的信息咨询服务系统,其特征在于,所述分类损失单元,用于:使用所述分类器以如下分类损失公式对所述优化训练语义匹配特征向量进行处理以得到训练分类结果,所述分类损失公式为:softmax{(Wn,Bn):…:(W1,B1)|V)},其中V表示所述优化训练语义匹配特征向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵;以及计算所述训练分类结果与所述真实值之间的交叉熵值作为所述分类损失函数值。

6.一种基于大数据的信息咨询服务方法,其特征在于,包括:获取政务咨询问题;

对所述政务咨询问题进行分词处理以得到政务咨询词的序列;

将所述政务咨询词的序列通过词嵌入层以得到政务咨询词嵌入向量的序列;

将所述政务咨询词嵌入向量的序列通过基于Transformer模块和BiLSTM模型的语义编码器以得到政务咨询问题语义理解特征向量;

获取第一备选答案;

对所述第一备选答案进行分词处理后通过所述词嵌入层和所述基于Transformer模块和BiLSTM模型的语义编码器以得到第一备选答案语义理解特征向量;

对所述第一备选答案语义理解特征向量和所述政务咨询问题语义理解特征向量进行关联编码以得到语义匹配特征矩阵;

对所述语义匹配特征矩阵进行特征尺度作为模仿掩码的秩排列分布软匹配以得到语义匹配特征矩阵;以及将所述语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否返回所述第一备选答案;

所述方法还包括对所述基于Transformer模块和BiLSTM模型的语义编码器和所述分类器进行训练的训练步骤;

所述训练步骤,包括:

获取训练数据,所述训练数据包括训练政务咨询问题,训练第一备选答案,以及,所述是否返回所述第一备选答案的真实值;

对所述训练政务咨询问题进行分词处理以得到训练政务咨询词的序列;

将所述训练政务咨询词的序列通过所述词嵌入层以得到训练政务咨询词嵌入向量的序列;

将所述训练政务咨询词嵌入向量的序列通过所述基于Transformer模块和BiLSTM模型的语义编码器以得到训练政务咨询问题语义理解特征向量;

对所述训练第一备选答案进行分词处理后通过所述词嵌入层和所述基于Transformer模块和BiLSTM模型的语义编码器以得到训练第一备选答案语义理解特征向量;

对所述训练第一备选答案语义理解特征向量和所述训练政务咨询问题语义理解特征向量进行关联编码以得到训练语义匹配特征矩阵;

对所述训练语义匹配特征矩阵展开后的训练语义匹配特征向量进行迭代优化以得到优化训练语义匹配特征向量;

将所述优化训练语义匹配特征向量通过所述分类器以得到分类损失函数值;以及以所述分类损失函数值通过梯度下降的反向传播来对所述基于Transformer模块和BiLSTM模型的语义编码器和所述分类器进行训练;

以如下迭代优化公式对所述训练语义匹配特征矩阵展开后的训练语义匹配特征向量进行迭代优化以得到所述优化训练语义匹配特征向量;其中,所述迭代优化公式为:其中,vi是所述训练语义匹配特征向量的第i个特征值,φ(vi)表示特征值的概率化函数,即将特征值vi映射到[0,1]区间的概率化函数,p是通过分类器得到的类概率值,L是所述语义匹配特征向量的长度,且α是权重超参数,v'i是所述优化训练语义匹配特征向量的第i个特征值。