1.一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:具体包括:步骤1:对环境中对象进行定义,根据定义得到所有可移动物品的初始信念分布;
步骤2:使用大语言模型L将自然语言任务目标转化为形式化目标;
步骤3:根据所有可移动物品的初始信念分布,形式化目标,采用大语言模型L与蒙特卡罗树搜索的方法,获得根节点下经验价值估计的最大的动作;
步骤4:智能体在环境中执行经验价值估计的最大的动作,更新得到新的观测表示,根据新的观测表示,重复步骤3,直到得到形式化目标的所有动作序列;
其特征在于:所述步骤1,具体包括:
步骤1.1:对环境中对象进行定义,得到空间集合,容器集合,表面集合,可移动物品集合;
步骤1.2:获取每个可移动物品的候选位置集;
其中,每个可移动物品的候选位置集 表达式如下:
;
其中: 是环境中某个空间的容器与表面的总数, 表示可移动物品 的第个侯选位置;
步骤1.3:对于每个可移动物品,通过提示词询问大语言模型 生成的侯选位置响应,采样M次,计算每次侯选位置响应与参考语义表示的余弦相似度数值,选取余弦相似度数值最大的候选位置响应作为先验候选位置,统计每个可移动物品的每个先验侯选位置出现的归一化频率;
步骤1.4:根据每个可移动物品的归一化频率,得到所有可移动物品的初始信念分布;
其中,所有可移动物品的初始信念分布 的表达式如下:
;
其中, 表示可移动物品oi在所有容器和表面上的初始信念分布;
的表达式如下:
;
其中, 表示可移动物品oi在第j个先验侯选位置出现的归一化频率;
所述步骤2,具体包括:
步骤2.1:使用大语言模型L将输入的自然语言任务目标分解为n个自然语言任务子目标;
步骤2.2:将n个自然语言任务子目标经过大语言模型L处理,转化为形式化目标;
其中,形式化目标formal_g的表达式如下
;
其中, 表示分解后的自然语言任务子目标序列,L表示大语言模型, 表示可移动物品与容器和表面的关系,oi表示可移动物品,di表示可移动物品摆放的目标位置, 表示可移动物品的数量, 表示自然语言任务子目标的数量。
2.根据权利要求1所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:所述步骤3,具体包括:步骤3.1:获取所有可移动物品的初始信念分布、初始历史轨迹以及形式化目标,从初始信念分布中采样得到初始环境状态,将初始环境状态作为蒙特卡洛树搜索的根节点,历史轨迹以及形式化目标作为所有节点的属性;
步骤3.2:对根节点进行初始化计算,将根节点的初始历史轨迹输入大语言模型L,采样M次,大语言模型L输出先验自然语言动作序列,计算每个先验自然语言动作与动作语义表示的余弦相似度数值,选取余弦相似度数值最大对应的动作;统计每个动作的出现频次并归一化得到动作在当前历史轨迹下的先验概率;将所有可行动作扩展为根节点的边加入蒙特卡洛树搜索树中,并将先验概率存储在对应的子节点中;
步骤3.3:从根节点按照树策略开始遍历,利用节点中已存储的先验概率和经验价值估计,计算每个动作的得分,选择得分最高对应的动作向下遍历,直到到达一个叶子节点;
步骤3.4:当遍历阶段到达一个已经被访问过的叶子节点,将当前叶子节点的历史轨迹输入大语言模型L,采样M次,大语言模型L输出先验自然语言动作序列,计算每个先验自然语言动作与动作语义表示的余弦相似度数值,选取余弦相似度数值最大对应的动作,统计每个动作的出现频次并归一化得到当前叶子节点下所有可行动作在当前历史轨迹下的先验概率,将当前叶子节点的所有可行动作以及所有可行动作后继的环境状态扩展到蒙特卡洛树搜索树中,形成新的叶子节点,并将先验概率存储到对应的叶子节点,并且初始化节点访问次数为0、经验价值估计为0;
步骤3.5:从新扩展的叶子节点开始,在环境中进行向前语义反思修正模拟,直到到达形式化目标完成状态或预设的最大深度,输出未来累计回报;
步骤3.6:根据未来累计回报沿着路径向上回传至根节点,增量式更新路径上所有节点的访问次数和价值估计,得到更新后的所有节点的访问次数和经验价值估计;
步骤3.7:在根节点、初始历史轨迹以及更新后的所有节点的访问次数和经验价值估计下重复执行多次蒙特卡洛树搜索树模拟达到预定次数后,停止搜索,选择根节点下经验价值估计的最大的动作。
3.根据权利要求2所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:所述得分最高对应的动作 的表达式如下:;
其中:Q(h,a)为在历史轨迹h下通过蒙特卡洛树搜索模拟选择动作a的经验价值估计,为在历史轨迹h下当前父节点的总访问次数, 为在历史轨迹h下动作 的被访问次数,c为平衡探索和利用的权重, 为动作在当前历史轨迹下的先验概率;
其中,所述动作在当前历史轨迹下的先验概率 的表达式如下:;
其中,表示余弦相似度数值最大对应的动作, 表示动作的出现频次,M为采样次数, 为动作空间。
4.根据权利要求2所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:所述向前语义反思修正模拟,具体包括:步骤3.5.1:当蒙特卡洛树搜索的每次模拟形式化目标未完成时,记录本次模拟的失败历史轨迹与自然语言任务子目标序列,将失败历史轨迹、反思示例以及自然语言任务子目标序列作为提示词输入大语言模型L,得到反思建议文本;
步骤3.5.2:将反思建议文本、失败历史轨迹以及自然语言任务子目标序列构建成历史反思集合;
步骤3.5.3:在蒙特卡洛树搜索的每次模拟中,如果历史反思集合非空,则将历史反思集合中元素作为上下文信息嵌入到动作生成策略中,得到更新后的先验概率;
步骤3.5.4:根据更新后的先验概率,计算更新后的得分最高对应的动作,根据更新后的得分最高对应的动作计算修正模拟过程中更新后动作获得的即时奖励。
5.根据权利要求1所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:所述步骤4,具体包括:步骤4.1:智能体在环境中执行价值估计的最大的动作,得到新的环境状态,根据新的环境状态,得到新的观测表示;
步骤4.2:如果某个可移动物品在新的观测表示中明确出现在候选位置,则将该候选位置的概率置为1,其余位置置为0;
步骤4.3:如果在新的观测表示中未检测到可移动物品在某些候选位置,则说明可移动物品不在这些区域,定义 为未被排除的侯选位置集合,将不在 中的侯选位置的概率置为0,并对 中的位置概率重新归一化,得到重新归一化后的侯选位置概率;
步骤4.4:根据每个可移动物品的重新归一化后的侯选位置概率,得到每个可移动物品在所有容器和表面上的修正后的信念分布;
步骤4.5:根据每个可移动物品在所有容器和表面上的修正后的信念分布,得到所有可移动物品修正后的信念分布;
步骤4.6:根据所有可移动物品修正后的信念分布重复步骤3,直到得到形式化目标的所有动作序列。
6.根据权利要求1所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法,其特征在于:所述智能体包括,环境状态表示当前环境中可移动物品、容器、表面的位置属性以及可移动物品与容器、表面的相互关系;
动作表示智能体在当前状态下对环境执行的操作;
在智能体执行动作后,环境向智能体提供部分可观察的反馈,记观测集合为 ,时刻对应的观测表示为 ;
历史轨迹 ,记录了截止到当前 时刻的动作与观测表示的交互序列;
智能体基于当前状态 执行动作 后,环境基于状态转移函数将当前状态 更新为下一时刻的新环境状态 ,并向智能体返回相应的下一时刻的环境观测 。
7.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1至6中任一所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法。
8.一种计算机设备,其特征在于:包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述计算机设备执行如权利要求1至6中任一所述的一种基于大语言模型与蒙特卡罗树搜索的任务智能规划方法的操作。