1.一种信息推理方法,所述智能体决策网络包括若干个智能体;其特征在于,所述方法包括以下步骤:
获得智能体决策网络的当前时隙的若干个智能体的状态空间信息以及预设的角色提示信息,其中,所述当前时隙的状态空间信息包括问题文本信息以及智能体会话历史信息;
根据若干个所述智能体以及相应的当前时隙的状态空间信息、角色提示信息,获得当前时隙的若干个智能体的动作空间信息;根据若干个智能体以及相应的当前时隙的动作空间信息进行任务辩论,获得下一个时隙的若干个智能体的状态空间信息,其中,所述动作空间信息为智能体基于状态空间信息生成的答案文本信息;
根据所述当前时隙的若干个智能体的动作空间信息进行奖励计算,获得当前时隙的若干个智能体的奖励信息;将若干个所述智能体的角色提示信息、相应的当前时隙的状态空间信息、奖励信息以及下一个时隙的状态空间信息进行组合,构建当前时隙的若干个智能体的训练信息组合;
根据所述当前时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,根据更新后的所述智能体决策网络中的若干个智能体以及相应的角色提示信息、下一个时隙的状态空间信息,重复构建下一个时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,将最后一次更新的智能体决策网络作为目标智能体决策网络;
获得待处理问题文本信息,将所述待处理问题文本信息分别输入至所述目标智能体决策网络中的若干个智能体,根据预设的迭代次数进行反复迭代,获得最后一次迭代次数的所述目标智能体决策网络中的若干个智能体输出的答案文本信息,将出现频率最高的答案文本信息作为所述待处理问题文本信息的推理结果。
2.根据权利要求1所述的信息推理方法,其特征在于:所述智能体包括角色感知网络,所述角色感知网络为RNN卷积神经网络;
所述根据若干个所述智能体以及相应的当前时隙的状态空间信息以及角色提示信息,获得当前时隙的若干个智能体的动作空间信息,包括步骤:根据若干个所述智能体以及相应的角色提示信息进行嵌入处理,获得若干个所述智能体的角色嵌入信息;
分别将若干个所述智能体的角色嵌入信息、相应的当前时隙的状态空间信息输入至相应的智能体中的角色感知网络,根据预设的动作空间信息生成算法,获得当前时隙的若干个智能体的动作空间信息,其中,所述动作空间信息生成算法为:式中, 为第t个时隙的第i个智能体的动作空间信息, 为第t个时隙的状态空间信息中第i个智能体的状态空间信息,ei为第i个智能体的角色嵌入信息,RNNi(·)为第i个智能体的角色感知网络的处理函数,πi(·)为第i个智能体的角色感知网络中的策略函数。
3.根据权利要求2所述的信息推理方法,其特征在于,所述根据所述当前时隙的若干个智能体的动作空间信息进行奖励计算,获得当前时隙的若干个智能体的奖励信息,包括步骤:获得若干个所述智能体的标准答案信息,其中,所述标准答案信息为相应的状态空间信息中的问题文本信息对应的答案文本信息;
根据所述当前时隙的若干个智能体的动作空间信息以及标准答案信息,采用余弦相似度计算方法,获得当前时隙的若干个智能体的动作空间信息与标准答案信息之间的余弦相似度,作为所述奖励信息。
4.根据权利要求3所述的信息推理方法,其特征在于:
所述智能体还包括目标网络;所述智能体决策网络包括混合网络,所述混合网络包括循环神经网络以及全连接层;
所述根据所述当前时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,包括步骤:
根据所述智能体的训练信息组合中的下一个时隙的状态空间信息以及角色提示信息,获得下一个时隙的若干个智能体的动作空间信息;
将所述当前时隙的若干个智能体的训练信息组合中的当前时隙的奖励信息以及下一个时隙的状态空间信息、动作空间信息输入至所述目标网络,根据预设的个体价值计算算法,获得当前时隙的若干个智能体的个体价值参数,其中,所述个体价值计算算法为:式中, 为第t个时隙的第i个智能体的个体价值参数,r为第t个时隙的奖励信息,γ为折扣因子,E(·)为期望计算函数, 为求最大值函数,Q(·)为目标网络函数, 为第t+1个时隙的状态空间信息中第i个智能体的状态空间信息, 为第t+1个时隙的第i个智能体的动作空间信息;
根据当前时隙的若干个智能体的个体价值参数以及所述混合网络进行全局价值参数计算,获得当前时隙的智能体决策网络的全局价值参数;根据当前时隙的若干个智能体的奖励信息以及智能体决策网络的全局价值参数,采用强化学习方法构建第一损失值,根据所述第一损失值对所述智能体决策网络中的若干个所述智能体的角色感知网络进行更新。
5.根据权利要求4所述的信息推理方法,其特征在于:所述全局价值参数包括第一全局价值参数以及第二全局价值参数;
所述根据当前时隙的若干个智能体的个体价值参数以及所述混合网络进行全局价值参数计算,获得当前时隙的智能体决策网络的全局价值参数;根据当前时隙的若干个智能体的奖励信息以及智能体决策网络的全局价值参数,采用强化学习方法构建第一损失值,包括步骤:将当前时隙的若干个智能体的个体价值参数进行组合,构建当前时隙的智能体决策网络的第一个体价值参数集合;将当前时隙的若干个智能体的个体价值参数进行对比,获得当前时隙的最大个体价值参数,将当前时隙的若干个智能体的所述个体价值参数替换为所述最大个体价值参数,将替换后的当前时隙的若干个智能体的个体价值参数进行组合,构建当前时隙的智能体决策网络的第二个体价值参数集合;
分别将当前时隙的智能体决策网络的第一个体价值参数集合以及第二个体价值参数集合作为所述混合网络的输入参数集合,根据所述输入参数集合进行全局价值参数计算,获得当前时隙的智能体决策网络的第一全局价值参数以及第二全局价值参数;
将当前时隙的若干个智能体的奖励信息进行累加,获得当前时隙的所述智能体决策网络的累计奖励信息;根据当前时隙的所述智能体决策网络的累计奖励信息、第一全局价值参数以及第二全局价值参数以及预设的第一损失算法,获得第一损失值,根据所述第一损失值,对所述智能体决策网络中的若干个所述智能体的角色感知网络进行更新,其中,所述第一损失算法为:t
式中,Lmix为,T为时隙的总数,R为第t个时隙的所述智能体决策网络的累计奖励信息,γ为折扣因子, 为第t个时隙的所述智能体决策网络的第一全局价值参数, 为第t个时隙的所述智能体决策网络的第二全局价值参数。
6.根据权利要求5所述的信息推理方法,其特征在于:所述智能体决策网络还包括推理网络;
所述根据所述当前时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,还包括步骤:
获得当前时隙的若干个智能体的观测值,将当前时隙的若干个智能体的观测值输入至所述推理网络,获得当前时隙的若干个智能体的高斯分布;分别对当前时隙的若干个所述智能体的高斯分布进行采样,获得当前时隙的潜在变量集合,其中,所述潜在变量集合包括若干个智能体的潜在变量;
根据当前时隙的若干个所述智能体的高斯分布、潜在变量集合以及预设的相异性计算算法,获得当前时隙的若干个智能体的之间的相异性参数,其中,所述相异性计算算法为:式中,Dφ(i,j)为第i个智能体的与第j个智能体之间的相异性参数,KL(·)为KL散度计算函数, 分别为第i个以及第j个智能体的高斯分布,zi、zj分别为第i个以及第j个智能体的潜在变量,b、c分别为第一平衡系数以及第二平衡系数;
根据当前时隙的若干个智能体的观测值、动作空间信息、高斯分布、若干个智能体的之间的相异性参数、潜在变量集合以及预设的第二损失算法,获得第二损失值,根据所述第一损失值以及第二损失值,对所述智能体决策网络中的若干个所述智能体的角色感知网络进行更新,其中,所述第二损失算法为:式中,Ldis为第二损失值,wMI为第一权重参数,zi为第i个智能体的潜在变量,ai为第i个智能体的动作空间信息,wKL为第一权重参数,MI(·)为MI散度计算函数,p(·|·)为条件概率分布计算函数,oi为第i个智能体的观测值,oj为第j个智能体的观测值,wDI为第二权重参数,wH为第四权重参数,H(Z)为潜在变量集合的熵,Z为潜在变量集合。
7.一种基于智能体决策网络的信息推理装置,所述智能体决策网络包括若干个智能体,其特征在于,包括:数据获得模块,用于获得智能体决策网络的当前时隙的若干个智能体的状态空间信息以及预设的角色提示信息,其中,所述当前时隙的状态空间信息包括问题文本信息以及智能体会话历史信息;
任务辩论模型,用于根据若干个所述智能体以及相应的当前时隙的状态空间信息、角色提示信息,获得当前时隙的若干个智能体的动作空间信息;根据若干个智能体以及相应的当前时隙的动作空间信息进行任务辩论,获得下一个时隙的若干个智能体的状态空间信息,其中,所述动作空间信息为智能体基于状态空间信息生成的答案文本信息;
训练信息组合构建模块,用于根据所述当前时隙的若干个智能体的动作空间信息进行奖励计算,获得当前时隙的若干个智能体的奖励信息;将若干个所述智能体的角色提示信息、相应的当前时隙的状态空间信息、奖励信息以及下一个时隙的状态空间信息进行组合,构建当前时隙的若干个智能体的训练信息组合;
决策网络更新模块,用于根据所述当前时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,根据更新后的所述智能体决策网络中的若干个智能体以及相应的角色提示信息、下一个时隙的状态空间信息,重复构建下一个时隙的若干个智能体的训练信息组合,对所述智能体决策网络进行更新,将最后一次更新的智能体决策网络作为目标智能体决策网络;
信息推理模块,用于获得待处理问题文本信息,将所述待处理问题文本信息分别输入至所述目标智能体决策网络中的若干个智能体,根据预设的迭代次数进行反复迭代,获得最后一次迭代次数的所述目标智能体决策网络中的若干个智能体输出的答案文本信息,将出现频率最高的答案文本信息作为所述待处理问题文本信息的推理结果。
8.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求
1至6中任一项所述的信息推理方法的步骤。
9.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息推理方法的步骤。