买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于博弈论的非稳定环境下智能体策略协同方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于博弈论的非稳定环境下智能体策略协同方法

￥31200

专利号： 2024117700372

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于博弈论的非稳定环境下智能体策略协同方法，其特征在于，包括以下步骤：步骤1，获取智能体状态值和收益；

步骤2，根据动态差分规划方法，得到智能体期望收益，并根据马氏性公式，得到智能体最优收益；

步骤3，根据当前时刻的状态值和智能体期望收益，获得智能体最期望的动作选择；

步骤4，当智能体处于动态环境中时，获取智能体期望收益随时间的变化，并根据变化后的期望收益，获得最优动作选择；

步骤1包括：设定智能体的状态为s0，初始动作值为a0，得到初始化后的收益为R0；

步骤1中，采用如下公式计算期望收益：

其中，E(R)为期望收益，N为智能体的数量，pi为第i个智能体在一个状态下采取一个策略的概率，Ri为第i个智能体在一个状态下的收益；

步骤1中，智能体将期望收益E(R)与初始化后的收益R0进行比较，如果期望收益E(R)与初始化后的收益R0之间的差值小于或等于设定的最优阈值Δth，智能体的状态保持不变，此时，智能体的状态值不发生更新，维持为当前状态值，状态更新公式表示为：|E(R)‑R0|≤Δth则scurrent＝s0，其中scurrent表示当前状态；

如果期望收益E(R)与初始化后的收益R0之间的差值大于最优阈值Δth，说明当前状态未能达到最优状态，需要进行状态更新，此时，智能体根据期望收益更新状态值，新的状态值为期望收益所对应的状态，更新后的状态值snew为：snew＝E(R)；

步骤2包括：每个智能体的期望收益计算公式如下：

其中，Ei(R)表示第i个智能体的期望收益；Si,ai分别表示第i个智能体的状态与动作；

sj,aj分别表示第j个智能体的状态与动作；P(sj,aj)表示第j个智能体在状态sj和动作aj下的联合概率；Sj表示第j个智能体的状态集，Aj表示第j个智能体的动作集；Ri(si,ai,sj,aj)是第i个智能体在状态si和动作ai下，基于第j个智能体的状态sj和动作aj所获得的收益；

步骤2还包括：设定当前时刻的状态集为St，下一个时刻的状态集为St+1，第i个智能体当前时刻的状态集为Si，动作集为Ai，采用如下公式计算在动态规划中智能体的期望收益：其中，Vi(si)为第i个智能体在状态si下的价值函数；Ri(si,ai)为第i个智能体在状态si下执行动作ai所获得的即时收益；γ为折扣因子；P(si+1|si,ai)表示从当前状态si和动作ai转移到下一个状态Si+1的概率；

步骤2还包括：采用如下公式计算第i个智能体的最优收益R：*

R＝maxEi(R)；

步骤3包括：设定第i个智能体当前状态为si，动作为ai，转移到下一个状态si+1的收益为Ri(si,ai,si+1)，根据马氏性公式，第i个智能体从当前状态si转移到下一个状态si+1时的期望收益Ei(R)表示为：其中P(si+1|si)表示第i个智能体从当前状态si转移到下一个状态si+1的条件概率；

智能体的最优收益选择公式为：

其中，R(si)为最优收益；

步骤4包括：设定在时刻t时，第i个智能体的最优动作选择为at，对应的期望收益为通过如下公式计算第i个智能体在t时刻的期望收益其中，Ri(st,at)是智能体在状态st下执行动作at获得的即时收益，P(st+1|st,at)表示从状态st执行动作at转移到状态St+1的概率，Vi(st+1)为状态St+1下的价值，S表示状态集；

步骤4还包括：当时间进程推移至t+1时，智能体根据当前时刻的期望收益，利用马氏性公式预测未来状态转移带来的收益，从而更新期望收益，根据马尔科夫性质，智能体从当前状态st转移到下一个状态st+1的期望收益为：设定第i个智能体在时刻t的价值函数Q的值为第i个智能体的期望收益表示为：动态环境中的最优收益更新：每次在状态转移后，智能体都会计算当前时刻的期望收益，并根据当前时刻的期望收益更新其最优收益，最优收益的更新公式为：其中，表示第i个智能体在状态st下的最优收益，智能体通过比较不同动作选择的收益，选择最大化的动作；

状态转移与行为决策：设定第i个智能体的状态转移矩阵为P(st+1|st)，则第i个智能体在不同状态下的行为决策表示为：其中，π(at|st)为第i个智能体在状态st下选择动作at|的概率，P(st+1|st)表示智能体处于状态st的情况下，转移到下一个状态st+1的概率。