利索能及
我要发布
收藏
专利号: 2018107830196
申请人: 江苏智通交通科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于集成学习的交通参与者事故风险预测方法,其特征在于:包括以下步骤,S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;

S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;

S3、根据数据集N样本量设定抽样区间S以及循环步长k;

S4、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;

S5、将数据集D与Nm合集Gm拆分为训练集和测试集;

S6、对训练集进行SMOTE抽样,设置高危人员数据子集D扩样比例ai;其中,当i=1时,ai=1,当i>1时,ai=ai-1+1,i初值为1,i设有设定的取值上限;

S7、对于高危人员扩样比例ai,设置一般人员Nm数据子集缩样比例bj;其中,当j=1时,bj=1,当j>1时,bj=bj-1+1,j初值为1,j设有设定的取值上限;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;

S8、运用集成学习算法进行高危人员分类器的训练,确定模型参数,实现交通参与者交通事故风险预测模型 的拟合,模型能够输出标记值以及风险概率;

S9、以测试集数据进行模型 评估,获得不同覆盖率的模型精确度

S10、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型 对不同覆盖率下模型输出的人员标签误判率进行统计 绘制分类别的模型误判率曲线;

S11、j是否达到取值上限;若是,判断i是否达到取值上限,若是,则进入S12,否则i=i+

1,转入S6;否则,j=j+1,转到S7;

S12、检测nm是否达到抽样区间上限值,若是则进入S13,否则m=m+1,返回S4;

S13、由S9、S10的模型精确度、误判率分析具有最优性能的模型 确定最优的随机抽样数M、SMOTE抽样比例I、J以及模型覆盖率recall以及模型判别阈值;

S14、将步骤S2中待识别子集数据输入模型,确定对应数据标记值以及风险概率。

2.如权利要求1所述的基于集成学习的交通参与者事故风险预测方法,其特征在于,步骤S8中所述的集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。

3.如权利要求1所述的基于集成学习的交通参与者事故风险预测方法,其特征在于,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;

一般人员:存在违法记录但无事故记录的交通参与者;

不满足上述判别条件的数据构成待识别子集。

4.如权利要求1所述的基于集成学习的交通参与者事故风险预测方法,其特征在于:步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。

5.如权利要求1所述的基于集成学习的交通参与者事故风险预测方法,其特征在于:步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。

6.如权利要求1所述的基于集成学习的交通参与者事故风险预测方法,其特征在于:步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。