1.一种基于ADP算法的车辆路径规划方法,其特征在于,包括获取货物配送中心信息、可利用车辆信息和顾客需求点信息,根据所获取的货物配送中心信息、可利用车辆信息和顾客需求点信息,计算货物配送中心与每个顾客需求点之间的相互距离,建立相应数学模型,采用ADP算法找出成本最低的配送路径,再根据成本最低的路径进行货物配送;所述货物配送中心信息为配送中心位置,所述可利用车辆信息包括以下一种或多种:车辆位置、车辆承载量、车辆固定成本和车辆最大行驶路径;所述顾客需求点信息包括以下一种或多种:顾客需求点位置、顾客需求点的货物需求量和顾客需求点的货物需求时间段;
所述数学模型为VRP模型,构建过程如下:
1)先获取以下状态变量集合:
其中t表示时间阶段;
m表示可利用车辆;
it表示t阶段需服务的顾客需求点;
表示t阶段服务顾客的车辆m的剩余货物量, 为该车辆的最大容量;jt表示顾客i是否被访问过的状态,如果被访问了,jt=1,否则jt=0;
表示t阶段服务顾客的车辆行驶单位距离的成本;
表示t阶段服务顾客的车辆的固定成本;
2)获取从t到t+1阶段做出决策所需的决策变量集合,如下:其中,it+1表示t+1阶段需服务的顾客需求点;
a表示顾客预定配送时间,又称时间窗;
表示t阶段服务顾客的车辆m剩余的货物量能否满足下一个顾客的需求,如果不能,则选择另一辆车;
表示t阶段服务顾客需求点i的车辆m在第i+1个顾客需求点的第a个时间窗内,能否到达i+1顾客需求点并完成i+1点的服务;
表示t阶段服务顾客的第a个时间窗,其中 表示t阶段服务顾客的第a个时间窗开始的时间, 表示t阶段服务顾客的第a个时间窗结束的时间;
Dt表示t阶段顾客i的需求量;
3)根据t阶段的状态变量St构建t+1阶段的状态转移函数,如下:M
St+1=S(St,xt)
其中,M表示马尔科夫决策过程MDP,是描述动态随机系统优化决策问题的基本数学模型;
M
S表示从t到t+1阶段的状态变量因子;
St表示t阶段的状态变量集合;
xt表示t阶段的决策变量集合;
4)MDP模型中状态及决策产生的成本函数:其中, 表示t阶段服务顾客的车辆行驶单位距离的成本;
表示t阶段到t+1阶段服务顾客的车辆行驶距离;
表示t阶段服务顾客的车辆的固定成本;
5)计算每一阶段的距离成本函数,如下:M
Ct(St,xt)=E{C(St,xt)}M
其中,E表示C(St,xt)的期望;
6)构建目标函数,计算所有阶段总费用之和的最小值,如下:所述MDP模型中,计算所有阶段总费用之和的最小值采用ADP算法,ADP近似值迭代算法的基本步骤如下:步骤1,初始化:读入数据,初始化所有决策后状态 的近似函数值 其中t={0,1,……,T},设置迭代计数k=1及其最大值Kmax以及预决策状态 令t=1;
步骤2,开始第k次迭代:选择第1到T时段的观测样本作为ωk;
步骤3,从第0到T时段进行循环,求解 的近似值函数:其中, 表示t阶段在第k次迭代时的状态;
其中, 表示决策后的状态转移函数,具体表示 在进行xt决策后达到的决策后状态;
表示决策后状态的近似值函数;
并令 为最小化问题的最优决策;
步骤4,若t>0,则按照下式更新其中,αk‑1为第k‑1次迭代的平滑步长;
步骤5,求t阶段决策后状态:
t+1阶段的预决策状态:
其中,ωk表示1到T阶段的客户需求点,Wt+1表示不受控制的额外因素,如送货的路况问题;
步骤6,判断是否为最末时段,若t=T继续下一步,否则令t=t+1,转步骤3;
步骤7,若满足收敛条件则转步骤9,否则继续下一步;
步骤8,判断是否到达最大迭代次数,若k
步骤9,返回近似值函数 即得所有阶段总费用之和的最小值。