1.一种基于随机森林算法的交通高危人员识别方法,其特征在于:包括以下步骤,S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;
S3、对一般人员数据子集进行抽样,与违法数据集组合并拆分,获得训练集与测试集;
S4、采用随机森林算法,以训练集数据训练高危人员识别模型,确定模型参数;其中,模型参数包括分类器个数、最大树深、节点最小分裂值、叶节点最小样本数、最大特征;
S5、以测试集数据进行模型评估,并确定分类概率临界阈值,校正模型,获得最终的高危人员识别模型;
S6、将步骤S2中待识别子集数据输入步骤S5得到的高危人员识别模型,确定对应数据标签,实现高危人员的识别。
2.如权利要求1所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S3具体步骤为,S31、对一般人员数据子集进行随机抽样,获得压缩后的一般人员样本N’;
S32、对抽样后的一般人员数据子集的样本数据进行变量处理与筛选;
S33、将高危人员数据子集D与N’的合集G拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,确定高危人员数据子集以及一般人员数据子集扩样、缩样比例,得到最终的样本数量,处理后获得训练集样本。
3.如权利要求2所述的基于随机森林算法的车辆高危人员识别方法,其特征在于,步骤S32中所述的样本数据变量处理与筛选方法,具体为:S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量;
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值;uniquecutX=MX/NX,MX为样本值去重后的样本数量,NX为样本总量,Tu为uniquecut的检验阈值;
S323、删除与其他自变量共线性大于阈值的自变量;
S324、检查自变量多重共线性,确定数据自变量。
4.如权利要求1-3任一项所述的基于随机森林算法的车辆高危人员识别方法,其特征在于,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;
一般人员:存在违法记录但无事故记录的交通参与者;
不满足上述判别条件的数据构成待识别子集。
5.如权利要求1-3任一项所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为人员的违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
6.如权利要求5所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
7.如权利要求5所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。