利索能及
我要发布
收藏
专利号: 2024105517944
申请人: 青岛尚优企业管理有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-02-20
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种金融大数据优化存储方法,其特征在于,包括以下步骤:步骤1.多源异构金融数据汇聚:通过数据采集模块获取结构化、半结构化和非结构化数据,利用数据清洗模块进行处理,并通过格式转换模块转换为统一的平台标准格式;

步骤2.主题域划分与数据分类:依据金融业务主题域知识库对汇聚的数据进行主题域划分,并根据数据特征进行分类;

步骤3.多模态语义编码:对不同类型数据设计相应的语义编码器,通过引入对抗约束实现跨模态语义融合;

步骤4.语义增强与压缩:利用金融知识图谱对语义编码进行增强,通过注意力机制自适应地调整不同粒度语义的权重,设计语义级联编码网络逐层压缩语义表示,第l层级联单元的计算公式为:hl=gl(Wlhl‑1+bl)⊙σ(Ulhl‑1+cl)其中hl为第l层级联单元的输出,gl(·)为第l层的映射函数,σ(·)为门控函数,Wl,Ul,bl,cl为第l层级联单元的可学习参数,⊙为Hadamard积;

步骤5.联邦学习框架下的分布式存储:将语义编码按主题域分布存储于不同节点,并使用联邦学习框架协调节点间的训练与更新,本地节点k基于隐私保护的梯度聚合方式更新语义编码模型参数θk:其中,η为学习率,DP(.)为差分隐私梯度扰动函数,Lk为节点k的本地目标函数,中心服务器聚合各节点更新后的模型参数,得到全局一致的语义编码模型θ:其中,K为节点总数,nk为节点k的本地样本数,n为全局样本总数;

步骤6.一致性哈希索引构建:在压缩语义编码上应用一致性哈希方法生成索引,一致性哈希函数的定义为:hash(z)=(a·z+b)mod m

其中,z为压缩语义编码,α和b为哈希函数,参数m为哈希桶的数量;

步骤7.存储调度与自动伸缩:设计基于强化学习的存储资源调度策略,根据数据热度、访问模式因素动态优化数据的存储位置和副本数,并根据系统负载的实时监测和预测触发存储集群的自动伸缩;

步骤8.元数据管理与版本控制:构建统一的元数据管理模块,以图数据库形式组织和存储元数据,采用多版本并发控制机制对元数据和压缩语义编码进行版本管理。

2.根据权利要求1所述的方法,其特征在于,针对数值型结构化数据,采用基于因子分解机和树嵌入的混合语义编码器,其中,因子分解机部分的公式为:其中 为预测输出,w0为全局偏置项,wi为第ε维特征的权重,为第i维和第j维特征的隐向量交互,xi为第i维特征值;

树嵌入部分的公式为:

其中e(x)为树嵌入输出向量,f(xi)为第i维特征的one‑hot,编码μ(l(xi))为第i维特征在决策树中的叶子节点嵌入向量,l(xi)为第i维特征在决策树中的叶子节点索引。

3.根据权利要求1所述的方法,其特征在于,针对文本型数据,采用基于Transformer和BERT的跨层语义编码器,其中Transformer部分的公式为O

MultiHead(Q,K,V)=Concat(head1,...,headh)W其中,Q,K,V分别为查询、键、值矩阵,dk为键向量维度,Q K V Q K V O

headi=Attention(QWi,KWi,VWi)表示第i个注意力头,Wi ,Wi,Wi,W为可学习矩阵参数;

BERT部分的公式为:

其中,x=(x1,...,xn)为文本的词嵌入序列,p(xi|x<i,x>i)为给定上下文xi时第i个词xi的条件概率,hi为BERT的双向语言模型在第i个位置的隐藏状态。

4.根据权利要求1所述的方法,其特征在于,针对图像型数据,采用基于卷积神经网络和对比学习的分层语义编码器,其中卷积神经网络部分的公式为:其中, 为第l层卷积输出的第(i,j)个元素,f(·)为激活函数,Ml和Nl为第l层卷积核l的高和宽, 和b分别为第l层卷积核的权重和偏置项;

对比学习部分的公式为:

其中, 为对比学习损失函数,N为图像批次大小,zi为第i张图像的语义编码,zi,+为第i张图像的正例语义编码,τ为温度超参数。

5.根据权利要求1所述的方法,其特征在于,在所述多模态语义编码步骤中,引入模态判别器D和编码器E间的对抗目标函数:通过对抗训练,促使不

同模态数据在语义编码空间实现分布对齐,达到跨模态融合的目的。

6.根据权利要求1所述的方法,其特征在于,在所述语义增强与压缩步骤中,注意力权重的计算公式为:其中,αi为第i个粒度语义编码zi的注意力权重,f(·,·)为注意力得分函数,q为全局查询向量,m为语义粒度总数。

7.根据权利要求1所述的方法,其特征在于,在所述联邦学习框架下的分布式存储步骤中,使用差分隐私梯度扰动DP(.)保证模型聚合过程的隐私安全;所述一致性哈希索引将语义相似的编码映射到邻近的哈希桶中,实现相似性搜索。

8.根据权利要求1所述的方法,其特征在于,所述存储资源调度策略的强化学习模型以系统吞吐量和延迟作为奖励信号,通过不断试错学习调度策略。

9.根据权利要求1所述的方法,其特征在于,所述元数据包括数据的描述信息、血缘关系、Schema演变,元数据的查询、订阅和变更追踪通过图数据库接口实现。

10.根据权利要求1所述的方法,其特征在于,所述多版本并发控制机制对元数据和压缩语义编码的每次更新生成新版本,形成版本链,支持快速的历史数据回溯和快照分析。