1.基于博弈论的非稳定环境下智能体策略协同方法,其特征在于,包括以下步骤:步骤1,获取智能体状态值和收益;
步骤2,根据动态差分规划方法,得到智能体期望收益,并根据马氏性公式,得到智能体最优收益;
步骤3,根据当前时刻的状态值和智能体期望收益,获得智能体最期望的动作选择;
步骤4,当智能体处于动态环境中时,获取智能体期望收益随时间的变化,并根据变化后的期望收益,获得最优动作选择;
步骤1包括:设定智能体的状态为s0,初始动作值为a0,得到初始化后的收益为R0;
步骤1中,采用如下公式计算期望收益:
其中,E(R)为期望收益,N为智能体的数量,pi为第i个智能体在一个状态下采取一个策略的概率,Ri为第i个智能体在一个状态下的收益;
步骤1中,智能体将期望收益E(R)与初始化后的收益R0进行比较,如果期望收益E(R)与初始化后的收益R0之间的差值小于或等于设定的最优阈值Δth,智能体的状态保持不变,此时,智能体的状态值不发生更新,维持为当前状态值,状态更新公式表示为:|E(R)‑R0|≤Δth则scurrent=s0,其中scurrent表示当前状态;
如果期望收益E(R)与初始化后的收益R0之间的差值大于最优阈值Δth,说明当前状态未能达到最优状态,需要进行状态更新,此时,智能体根据期望收益更新状态值,新的状态值为期望收益所对应的状态,更新后的状态值snew为:snew=E(R);
步骤2包括:每个智能体的期望收益计算公式如下:
其中,Ei(R)表示第i个智能体的期望收益;Si,ai分别表示第i个智能体的状态与动作;
sj,aj分别表示第j个智能体的状态与动作;P(sj,aj)表示第j个智能体在状态sj和动作aj下的联合概率;Sj表示第j个智能体的状态集,Aj表示第j个智能体的动作集;Ri(si,ai,sj,aj)是第i个智能体在状态si和动作ai下,基于第j个智能体的状态sj和动作aj所获得的收益;
步骤2还包括:设定当前时刻的状态集为St,下一个时刻的状态集为St+1,第i个智能体当前时刻的状态集为Si,动作集为Ai,采用如下公式计算在动态规划中智能体的期望收益:其中,Vi(si)为第i个智能体在状态si下的价值函数;Ri(si,ai)为第i个智能体在状态si下执行动作ai所获得的即时收益;γ为折扣因子;P(si+1|si,ai)表示从当前状态si和动作ai转移到下一个状态Si+1的概率;
*
步骤2还包括:采用如下公式计算第i个智能体的最优收益R:*
R=maxEi(R);
步骤3包括:设定第i个智能体当前状态为si,动作为ai,转移到下一个状态si+1的收益为Ri(si,ai,si+1),根据马氏性公式,第i个智能体从当前状态si转移到下一个状态si+1时的期望收益Ei(R)表示为:其中P(si+1|si)表示第i个智能体从当前状态si转移到下一个状态si+1的条件概率;
智能体的最优收益选择公式为:
*
其中,R(si)为最优收益;
步骤4包括:设定在时刻t时,第i个智能体的最优动作选择为at,对应的期望收益为通过如下公式计算第i个智能体在t时刻的期望收益其中,Ri(st,at)是智能体在状态st下执行动作at获得的即时收益,P(st+1|st,at)表示从状态st执行动作at转移到状态St+1的概率,Vi(st+1)为状态St+1下的价值,S表示状态集;
步骤4还包括:当时间进程推移至t+1时,智能体根据当前时刻的期望收益,利用马氏性公式预测未来状态转移带来的收益,从而更新期望收益,根据马尔科夫性质,智能体从当前状态st转移到下一个状态st+1的期望收益 为:设定第i个智能体在时刻t的价值函数Q的值为 第i个智能体的期望收益表示为:动态环境中的最优收益更新:每次在状态转移后,智能体都会计算当前时刻的期望收益,并根据当前时刻的期望收益更新其最优收益,最优收益的更新公式为:其中, 表示第i个智能体在状态st下的最优收益,智能体通过比较不同动作选择的收益,选择最大化的动作;
状态转移与行为决策:设定第i个智能体的状态转移矩阵为P(st+1|st),则第i个智能体在不同状态下的行为决策表示为:其中,π(at|st)为第i个智能体在状态st下选择动作at|的概率,P(st+1|st)表示智能体处于状态st的情况下,转移到下一个状态st+1的概率。