利索能及
我要发布
收藏
专利号: 2021104000439
申请人: 池州市贵鸿信息技术有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基金推荐方法,其特征在于,所述方法包括:S1、建立基于主题板块的基金分类表,获取预设时间段内基金的第一参数,并根据初筛函数从基金分类表中选取初筛基金,并将初筛基金对应的基金标识填充至初筛基金表;

S2、根据预设的数据采集清单确定数据源平台,从数据源平台获取预设时间段内初筛基金表中基金的特征数据,对特征数据进行预处理并基于语义判断模型分类生成第二参数;

S3、基于第二参数计算初筛基金表中基金的优质度Q,将优质度Q>优质度阈值Q0的基金对应的基金标识填充至基金推荐表;

S4、建立并训练基于基金操作策略的深度强化学习模型,利用训练好的深度强化学习模型对基金推荐表的目标基金的操作策略进行预测;

S5、将预测的操作策略作为投资建议添加到基金推荐表,将基金推荐表推荐给用户。

2.根据权利要求1所述的方法,其特征在于,所述第一参数包括:访问量、持有人数和净值。

3.根据权利要求2所述的方法,其特征在于,所述初筛函数定义为:其中,F(x)表示初筛函数,αi表示预设时间段内第x个主题板块中第i个基金的访问量平均值,α0表示根据实际情况设定的访问量阈值;βi表示预设时间段内第x个主题板块中第i个基金的持有人数平均值,β0表示根据实际情况设定的持有人数阈值;γi表示预设时间段内第x个主题板块中第i个基金的净值平均值,γ0表示根据实际情况设定的净值阈值;nx表示第x个主题板块的基金的数量;w1,w2,w3表示权重,满足w1,w2,w3∈[0,1]且w1+w2+w3=1;

从每个主题板块中选取初筛函数F(x)的值最大的M个基金作为初筛基金。

4.根据权利要求1所述的方法,其特征在于,所述初筛基金表中基金的特征数据包括:基金提及数据、基金评论数据、基金评论点赞数据,基金经理提及数据,基金经理评论数据、基金经理评论点赞数据。

5.根据权利要求4所述的方法,其特征在于,所述对特征数据进行预处理,具体包括:为获取的基金的特征数据设置预处理优先级,其中,文字评论为第一优先级,语音评论为第二优先级,图片评论为第三优先级;

第一优先级处理:判断文字评论与好评词库是否匹配,若匹配成功,则判断文字评论对应的评论IP重合度是否超出重合度阈值,若超出,则放弃评论IP所有潜在好评标记;若未超出,则进行潜在好评标记,则进入第二优先级处理;

第二优先级处理:将语音评论转化为文字评论,判断文字评论与好评词库是否匹配,若匹配成功,则判断文字评论对应的评论IP重合度是否超出重合度阈值,若超出,则放弃评论IP所有潜在好评标记;若未超出,则进行潜在好评标记,则进入第三优先级处理;

第三优先级处理:判断图片评论中相同图片的数量是否超出数量阈值,若未超出数量阈值,识别图片评论中文字评论,则进一步判断文字评论与好评词库是否匹配,若匹配成功,则进行潜在好评标记;若超出数量阈值,则进一步判断图片评论的IP重合度是否超出重合度阈值,若超出重合度阈值,则放弃超出重合度阈值的评论IP所有潜在好评标记,若未超出重合度阈值,识别图片评论中文字评论,则进一步判断文字评论与好评词库是否匹配,若匹配成功,则进行潜在好评标记。

6.根据权利要求5所述的方法,其特征在于,所述基于语义判断模型分类生成第二参数,具体包括:

对基金的特征数据进行预处理后生成好评倾向标识;

构建语义判断模型,其构建方法如下:建立最优奖励模型: 其中,E表示期望值,λ表示折现因子,λ∈[0,1];s0表示初始状态,R表示奖励函数,π(st)表示将状态映射到操作的策略;

定义Q函数: 其中,πi表示根据等式确定Q* *

值的当前策略,R表示函数,λ表示折现因子,p(s,a,s)表示动作a从状态s转移到s的转移概率,Tπi表示迭代步骤i得到的奖励;

新策略的迭代更新如下:

π(i+1)(s)=arg max Q(s,a),定义ε‑贪婪行为策略,采用ε‑贪婪行为策略来确定当前状态的行为,其中,每个动作都是以一些预定义的固定概率 随机选择的。

Q值通过学习迭代逼近最优策略的获取;

通过语义判断模型对携带好评倾向标识的特征数据进行强化学习以生成好评分类结果。

7.根据权利要求6所述的方法,其特征在于,所述优质度Q的计算公式如下:其中,Q表示优质度,p1表示基金的好评数,m1表示基金的提及数,c1表示基金好评的点赞数,p2表示基金对应基金经理的好评数,m2表示基金对应基金经理的提及数,c2表示基金对应基金经理好评的点赞数,t表示以天为单位的时间;k1,k2表示调节系数,满足k1,k2∈[0,1]且k1+k2=1。

8.根据权利要求1或者7所述的方法,其特征在于,所述建立并训练基于基金操作策略的深度强化学习模型,具体包括:获取多支基金历史操作策略数据,求和并求平均值进行输入,对基金操作策略进行预测,建立其对应的马尔可夫决策过程模型,动作用a表示,其包括买入、卖出和保持,状态用s表示,其为由行为策略生成的基金价格信息,奖励用R表示,其为状态变化时,投资组合价值的变化;

π π *

训练数据,不断更新值函数V (s,a),直到值函数V (s,a)收敛,得到最优值函数V (s,a);

*

最优值函数V(s,a)用公式表示如下:*

其中,V(s,a)表示最优值函数,s′∈S表示状态实例,a∈A表示动作实例,γ表示折扣因子,R表示奖赏函数,指定了奖赏,P表示转移函数,指定了状态转移概率;

* *

基于上述最优值函数V(s,a),最优策略π(s)可得:*

其中,π(s)表示最优策略,Psa(s′,a)表示状态s采取动作a到下一状态s′的转移概率,a∈A表示动作实例,γ表示折扣因子;

采用递归神经网络来作为Q值的网络,参数为θ;

t t t‑1

H=f(u×x+w×H +b1),t t‑1

Q=f(v×H +b2),

t t

L=Q‑y,

t t‑1 t

其中,H 表示t时刻的隐藏状态,H 表示t‑1时刻的隐藏状态,Q 表示当前层在时刻t的t t

输出,L表示误差,x表示t时刻输入的训练数据,y表示训练数据的原始输出,训练数据的原始输出,f表示隐藏层的激活函数,u、w和v表示递归神经网络共享的权值,b1和b2表示递归神经网络共享的阈值;

在Q值中定义损失函数L(θ);

采用批量梯度下降的方法对递归神经网络参数进行训练,随着训练次数的不断增加,通过网络输出的Q值选择Q值最大的动作,并最终收敛到最优策略;

更新周期内,将预先分为测试集的历史操作策略数据,用来测试的训练好的模型。

9.根据权利要求8所述的方法,其特征在于,所述损失函数L(θ)用公式表示如下:其中,L(θ)表示损失函数,r表示奖励值,θ和θ′表示神经网络权值, 表示目标Q函数值,Q(s,a,θ)表示预测Q函数值,γ表示折扣因子。