1.一种基于强化学习的信息处理方法,其特征在于,包括:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
2.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
3.根据权利要求1所述的基于强化学习的信息处理的方法,其特征在于,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
从所述信息字段中提取出所述目标值;
将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:r(St+1)=a[sgn(A-St+1)]+b(St-St+1),式子中,r(St+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,St为第t个实际值,St+1为第t+1个实际值。
4.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述实时状态的贡献值;
根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
5.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:其中,所述附加评分函数为:
式子中,rnew为附加评分,{match}为备选方案数据符合加分策略的数量,di为第i个加分策略对应的等级分,gi为在第i个加分策略下的目标值与实际值的差值,h为常数;
将所述初始评分和所述附加评分相加后得到所述最终评分。
6.根据权利要求1至5任一项所述的基于强化学习的信息处理方法,其特征在于,所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
采用预置正则匹配式,确定所述各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
7.一种基于强化学习的信息处理装置,其特征在于,包括以下模块:数据采集模块,设置为获取原始数据并对所述原始数据进行预处理,得到样本数据;
评分权重模块,设置为获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
初始评分模块,设置为获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
最终评分模块,设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
目标方案模块,设置为根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
8.根据权利要求6所述的基于强化学习的信息处理装置,其特征在于,所述数据采集模块,还用于:对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述基于强化学习的信息处理方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述基于强化学习的信息处理方法的步骤。