1.一种基于强化学习的保险策略生成方法,其特征在于,包括以下步骤:S1,建立用户与保险公司之间的授权连接关系,保险公司基于基础的采集频率和采集优先级获取预设时间窗口内的用户的多模态数据,所述多模态数据包括用户的健康数据、消费行为数据和社交互动数据;
S2,构建深度学习模型,基于多个预设时间窗口内的多模态数据训练风险评估模型,风险评估模型的输入是多模态数据,输出是每种类型数据的预测状态和风险概率;
步骤2具体包括:
预先构建基于用户状态和风险概率的目标函数:
其中,和 是平衡行为状态预测误差和风险概率预测误差的权重参数,是控制正则化项 影响力的参数,N是数据类型的总数, 是第i种数据类型的用户状态, 是第i种数据类型的预测用户状态,是第j种数据类型的风险概率, 是第j种数据类型的预测风险概率;
将多模态数据进行预处理后划分为训练集、验证集和测试集;
初始化风险评估模型的参数,将训练集中的多模态数据输入到模型中,模型经过隐藏层的计算到达输出层,输出每种类型数据的预测状态和风险概率;
基于目标函数计算模型的损失值,基于损失值结合链式法则计算目标函数关于模型各个参数的梯度,并采用反向传播算法进行参数更新;
基于验证集对模型进行验证并计算模型的性能指标,当模型的性能指标稳定时,训练完成;
使用测试集对训练好的模型进行评估得到评估结果,基于评估结果调整模型的参数,得到最终的风险评估模型;
S3,基于用户状态和风险概率为用户配置保险策略,基于用户状态、风险概率和保险策略训练强化学习模型,模型的输入是用户状态、风险概率,模型的输出是保险策略;
S4,基于预测状态获取用户状态变化和用户状态变化频率,基于状态变化结合状态阈值和风险概率调整数据采集频率,基于每种类型数据的风险概率调整采集优先级,基于用户状态变化频率调整预设的时间窗口;
S5,在调整后的时间窗口内基于调整后的数据采集频率和采集优先级获取当前多模态数据,将当前多模态数据输入风险评估模型得到当前预测用户状态和风险概率,将当前预测用户状态和风险概率输入强化学习模型得到当前保险策略。
2.根据权利要求1所述的基于强化学习的保险策略生成方法,其特征在于,步骤S4中,基于每种类型数据的风险概率调整采集优先级具体包括:其中, 是第i种类型数据的优先级权重, 是第i种类型数据的预测风险概率,N是数据类型的总数;
将所有类型数据的优先级权重从大到小排序,得到调整后的采集优先级顺序。
3.根据权利要求2所述的基于强化学习的保险策略生成方法,其特征在于,在调整采集优先级时,将每种数据类型的预测风险概率分别与其对应的高风险阈值进行判断,对超过高风险阈值的预测风险概率对应的类型进行实时采集,不计入优先级排序。
4.根据权利要求1所述的基于强化学习的保险策略生成方法,其特征在于,步骤S4中,采集频率调整具体包括:基于每种类型的数据的当前状态变化计算状态变化调整后的采集频率:其中, 是第i种数据的权重, 是第i种数据的基础采集频率, 是第i种数据的状态变化调整后的采集频率, 是第i种数据类型的调整系数, 是第i种数据类型的用户状态变化, 是第i种数据类型的阈值参数;
基于每种类型的数据的预测风险概率计算调整后的采集优先级,并基于调整后的采集优先级计算预测风险调整后的采集频率:;
加权综合状态变化调整后的采集频率和预测风险调整后的采集频率得到综合调整后的采集频率。
5.根据权利要求1所述的基于强化学习的保险策略生成方法,其特征在于,步骤S3中,强化学习模型的训练具体包括:获取保险公司的盈利值,基于每个时刻的盈利值结合风险概率设计奖励函数:其中, 是保险公司的盈利值,是风险的惩罚因子,用于权衡收益和风险之间的关系, 是整体风险水平;
S3‑1,将保险公司作为智能体,基于用户状态和风险概率定义状态空间、基于保险策略定义动作空间;
S3‑2,获取当前的用户状态和风险概率,基于当前用户状态和风险概率结合贪心策略从动作空间中选择一个保险策略;
S3‑3,智能体执行选择的保险策略后,基于奖励函数计算相应的奖励,并基于当前用户状态、风险概率、奖励结合下一个用户状态、风险概率更新当前对应的保险策略的优劣情况;
S3‑4,重复S3‑2和S3‑3的过程,使智能体选择的保险策略收敛到最优。
6.根据权利要求5所述的基于强化学习的保险策略生成方法,其特征在于,步骤S3‑3具体包括:基于Q – learning算法构建环境状态与保险策略之间的策略价值函数,基于当前用户状态、风险概率、奖励结合下一个用户状态、风险概率进行Q值更新,以更新当前环境状态与保险策略之间的优劣情况,具体为:其中, 是, 是由t时刻用户状态和风险概率构成的环境状态, 是t时刻的保险策略,是学习率, 是t时刻的即时奖励,是折扣因子, 是在t+1时刻的环境状态下采取最优保险策略获得的最优未来策略价值,是保险策略, 是t+1时刻的环境状态下采取的最优保险策略。
7.一种基于强化学习的保险策略生成系统,其特征在于,系统实现时执行如权利要求
1‑6任一项所述的基于强化学习的保险策略生成方法,系统包括:数据采集模块,建立用户与保险公司之间的授权连接关系,保险公司基于基础的采集频率和采集优先级获取预设时间窗口内的用户的多模态数据,所述多模态数据包括用户的健康数据、消费行为数据和社交互动数据;
风险评估模型构建模块,构建深度学习模型,基于多个预设时间窗口内的多模态数据训练风险评估模型,风险评估模型的输入是多模态数据,输出是每种类型数据的预测状态和风险概率;
强化学习模型构建模块,基于用户状态和风险概率为用户配置保险策略,基于用户状态、风险概率和保险策略训练强化学习模型,模型的输入是用户状态、风险概率,模型的输出是保险策略;
数据采集调整模块,基于预测状态获取用户状态变化和用户状态变化频率,基于状态变化结合状态阈值和风险概率调整数据采集频率,基于每种类型数据的风险概率调整采集优先级,基于用户状态变化频率调整预设的时间窗口;
当前策略获取模块,在调整后的时间窗口内基于调整后的数据采集频率和采集优先级获取当前多模态数据,将当前多模态数据输入风险评估模型得到当前预测用户状态和风险概率,将当前预测用户状态和风险概率输入强化学习模型得到当前保险策略。
8.一种终端,其特征在于,包括:
存储器,用于存储基于强化学习的保险策略生成程序;
处理器,用于执行所述基于强化学习的保险策略生成程序时实现如权利要求1‑6任一项所述基于强化学习的保险策略生成方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有基于强化学习的保险策略生成程序,所述基于强化学习的保险策略生成程序被处理器执行时实现如权利要求1‑6任一项所述基于强化学习的保险策略生成方法的步骤。