1.一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,包括以下步骤:
101.对历史车流量数据和天气数据进行包括清洗异常值在内的预处理操作;
102.获取8点到10点累计20分钟的总车流量,对20分钟的总车流量求和作为对数据进行的打标操作;
103.对数据进行特征工程构建操作从而得到最终的训练集和测试集,特征工程采用特征群的方法构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群;
104.构建结合目标特定特征和目标相关性的多目标回归模型;在多目标回归模型中,需要对每个目标构建其特定特征从而更好地区别每个目标,但同时,目标间是存在相互关联的,所以需要考虑目标相关性关联每个目标,结合了目标特定特征和目标相关性才能更全面地学习到数据中所包含的信息;
105.通过已建立的模型,根据收费站历史车流量数据、天气数据信息,预测8点到10点两小时每20分钟的车流量;
所述步骤104构建一种结合目标特定特征和目标相关性的多目标回归模型,具体包括:给定训练样本集D={(x1,y1),(x2,y2),…,(xn,yn)},即表示训练样本集D有n条样本,d维特征,6个目标;其中,(x1,y1)表示第1条样本,x1表示第1条样本的特征向量,y1表示第1条样本的目标向量,…,(xn,yn)表示第n条样本,xn表示第n条样本的特征向量,yn表示第n条样本的目标向量;
T
原始特征矩阵X=(x1,x2,…,xn) ,即T T
其中xi=(xi1,xi2,…,xid) 表示第i个样本的原始特征,1≤i≤n;X·,j=(x1j,x2j,…,xnj)表示第j个原始特征列,1≤j≤d;
T
目标矩阵Y=(y1,y2,…,yn) ,即T
其中yi=(流量i1,流量i2,…,流量i6) 表示第i个样本的目标,1≤i≤n;Y·,j=(流量1j,T
流量2j,…,流量nj) 表示第j个目标列,1≤j≤6;
步骤104考虑目标特定特征的具体步骤为:①对原始特征进行归一化得到 构成归一化后的训练样本集对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,2≤K≤20;即从2到20之间找到最佳聚类簇数bestk;
②对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤
6,K=bestk;由此数据集Dj′被聚为bestk个类,即:其中 表示第K个簇中特征归一化后的所有样本,对应的特征归一化前的所有样本表示为 X′K表示第K个簇中所有样本归一化后的特征,对应的归一化前的原始特征则表示为XK;
③对 进行kmeans聚类,聚为k类:其中1≤K≤bestk,ratio是模型的参数,用以控制目标特定特征的规模,设定为0
1 2 k T
centersjK=(CjK ,CjK ,…,CjK)q q q q T
其中CjK=(CjK1 ,CjK2 ,…,CjKd) 表示DjK的第q个中心点,1≤q≤k由此数据集Dj={(X,Y·,j)}就得到了s个中心点centersj,其中s=bestk*k,有即:
简化为
sp
④对于数据集Dj={(X,Y·,j)},计算X与centersj的欧式距离得到s个目标特定特征X jsp sp sp T
=(x j1,x j2,…,x jn) ;
sp sp sp sp T
第i个样本的目标特定特征为x ji=(x ji1,x ji2,…,x jid) ,对于其第t个分量,即第i个样本的第t个目标特定特征值,有其中1≤i≤n,1≤t≤s,Cjtd表示第j个目标的第t个聚类中心点的第d个元素。
2.根据权利要求1所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤101历史车流量数据包括收费站ID、收费站容量等级、收费站是否使用电子收费系统、车辆通过该收费站的方向、车辆通过该收费站的时间点、该车辆是客车还是货车,所述天气数据包括日期、小时、大气压、海平面压力、风向、风速、温度、相对湿度、降雨量。
3.根据权利要求1或2所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤101预处理操作包括:对异常值进行清洗,国庆期间车流量明显增大,属于异常数据,删除国庆期间的样本。
4.根据权利要求3所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤102累计20分钟的总车流量对数据进行打标操作,具体为累加8点到10点两小时每20分钟的车流量,构造6个目标。
5.根据权利要求4所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤103特征工程构建包括构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群。
6.根据权利要求5所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述流量特征群包括:7天历史车流量、6点到8点的车流量,以及车流量的均值、方差、中位数、最值在内的统计特征;
所述时间特征群包括:预测当天是周几,是否为周末,是当天的第几小时;
所述天气特征群包括:大气压、海平面压力、风向、风速、温度、相对湿度、降雨量;
所述离散特征群包括:收费站ID、车辆通过收费站的方向、当天是周几、当天的第几个小时进行one‑hot离散;
所述交叉特征群包括:上述特征群的两两交叉。
7.根据权利要求1所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,步骤104训练过程所述考虑目标间相关性的具体步骤为:①对数据集Dj={(X,Y·,j)},训练模型fj(X)≈Y·,j,其中1≤j≤6;
②计算Y·,j与Y·,~j的相关性,给定阈值threshold,算出与Y·,j的相关性大于threshold的目标值集合Y·,c,即
Y·,c={y|corr(Y·,j,Y·,~j)>threshold}其中threshold=0.7;
③调用模型fj,得到Y·,c的预测值矩阵为
8.根据权利要求7所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述结合目标特定特征和目标间相关性的具体步骤为:对数据集Dj={(X,Y·,j)},训练模型T
对新样本xnew=(xnew1,xnew2,…,xnewd) ,首先根据中心点centersj算出其目标特定特征,即
sp sp sp sp T
xnew j=(xnew j1,xnew j2,…,xnew jd)对于其第t个分量,即第t个目标特定特征值,有其中1≤i≤n,1≤t≤s;
再调用模型fj,得到Y·,c的预测值矩阵为最后调用模型fj′,得到新样本xnew的第j个目标的预测值为