利索能及
我要发布
收藏
专利号: 2025110844866
申请人: 江西财经大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网络多源金融文本大数据处理方法,其特征在于,包括:

S1、采集多源金融文本数据,进行语义级非结构化分析,剖离语义变动中的语言临界点与触发语义断点,构建金融波动语言触发因子矩阵,捕捉关键表达片段;

S2、接收触发因子矩阵,采用语言表达动因建模机制,对关键表达片段进行结构提取与构型映射,构建以语言表达动机为轴心的构型变换图,输出构型等价语义簇;

所述输出构型等价语义簇的方法包括:

针对每一关键表达片段,通过语法构型映射函数映射为语法构型向量,根据语法构型向量综合表示关键表达片段的句法结构特征、语义角色和表达动因标签;以中心表达片段为基准,通过余弦相似度计算关键表达片段与中心表达片段在构型向量空间中的语义构型距离;

通过语义构型距离衡量两个关键表达片段在结构层面与语义表达动因上的相似度;预设构型等价容差阈值,将所有满足构型等价语义簇判定关系的关键表达片段归入同一构型等价语义簇;以每一构型等价语义簇为节点,构建以语言表达动机为轴心的构型变换图;

S3、基于构型等价语义簇,执行拓扑结构分析,识别语义裂变点与突变连接,判定语义断层,并在断层两侧执行概念重构,生成概念语义树;

S4、根据概念语义树中的关键事件节点,构建语义演化路径,模拟金融事件的多向传播与变形过程,采用事件流重组方式生成语义多线程演化图;

S5、反向映射语义多线程演化图的推演路径,计算语义演化路径实际偏离度与结构一致性偏振值,调整语义断层判定与构型映射,实现语义识别逻辑与文本处理之间的持续优化迭代。

2.根据权利要求1所述的一种网络多源金融文本大数据处理方法,其特征在于,所述进行语义级非结构化分析的方法包括:采集多源金融文本数据,多源金融文本数据包括财经新闻数据、政策公告数据、社交媒体内容数据、企业财报文本数据和分析师研报数据;对多源金融文本数据进行格式标准化处理,去除冗余符号、网页标签和无效内容,并对格式化后的金融文本数据执行语义级非结构化分析;

语义级非结构化分析包括对金融文本数据进行语义单元切分,识别金融实体、时序触发词、情绪倾向词和事件表达结构;基于语义单元切分,通过命名实体识别、词性标注和情感倾向分析进行语义标注,并采用预训练语言模型生成上下文嵌入向量。

3.根据权利要求2所述的一种网络多源金融文本大数据处理方法,其特征在于,所述捕捉关键表达片段的方法包括:对上下文嵌入向量进行动态语义差异度分析,监测在时序结构中的语义演化轨迹,识别在语义表达过程中发生跳变的上下文嵌入向量中的语义片段;引入语义变动率指标,通过计算相邻句段或词组之间的语义向量差值变化速率,标定语义变化过程中语义跳变位置,标识为语言临界点;

分析语言临界点前后表达结构,识别在句法结构和实体关系上发生突变的表达段落,并定义为触发语义断点;基于语言临界点与触发语义断点,构建金融波动语言触发因子矩阵;并执行表达重要性权重排序,筛选出表达重要性权重大于预设表达重要性权重阈值的关键表达片段。

4.根据权利要求3所述的一种网络多源金融文本大数据处理方法,其特征在于,所述进行结构提取与构型映射的方法包括:接收金融波动语言触发因子矩阵,将金融波动语言触发因子矩阵中包含的关键表达片段作为输入,提取片段所对应的语言上下文、语法结构和事件要素信息;基于语言表达动因建模机制,对每一关键表达片段构建表达动因图谱;

对表达动因图谱中的各类表达动因进行归类标注,执行语法结构抽取,采用依存句法分析、语义角色标注和事件触发词识别相结合的方式,提取关键表达片段的结构构型;基于结构构型构建语言构型映射表,将具有相似表达动因的关键表达片段进行结构映射,并归入统一的构型类别。

5.根据权利要求4所述的一种网络多源金融文本大数据处理方法,其特征在于,所述判定语义断层的方法包括:将构型等价语义簇视为图节点,构建语义结构图,语义结构图中边表示不同构型等价语义簇之间的语义连接关系;对构建的语义结构图进行拓扑结构分析,识别在语义结构图中出边数增加、语义指向分布差异大于预设语义指向分布差异阈值的节点作为语义裂变点;识别构型向量距离大于预设构型向量距离阈值的连接边作为突变连接;综合语义裂变点与突变连接的信息,判定语义断层区域。

6.根据权利要求5所述的一种网络多源金融文本大数据处理方法,其特征在于,所述生成概念语义树的方法包括:提取语义断层两侧构型等价语义簇中的核心表达片段,基于该核心表达片段的语义嵌入向量、表达动因标签和事件语义角色,提取语义权重特征集合作为语义重心节点;基于语义重心节点之间的因果关系和表达逻辑构建跨断层的语义桥接路径;

在构建过程中,若存在语义跳变现象,则引入历史表达模板,生成桥接节点;融合语义断层两侧的语义特征信息,抽象金融概念单元,并依据金融概念单元之间的从属、并列或演化关系,构建概念组织结构,以桥接节点为根节点,生成具有层级结构的概念语义树。

7.根据权利要求6所述的一种网络多源金融文本大数据处理方法,其特征在于,所述模拟金融事件的多向传播与变形过程的方法包括:识别概念语义树中的关键事件节点,作为语义演化路径的起始节点;基于语义树结构关系和上下文语义张力,分别构建n个面向不同语义方向的语义演化路径;

对语义演化路径中的事件序列进行结构拆分和语义重排,提取事件单元,并根据事件间的因果、并列和递进关系,按照预设语义重构模板重组事件序列,生成m个表达不同语言动因下的语义线程,每条语义线程反映金融事件在预设语义框架下的演化和变形。

8.根据权利要求7所述的一种网络多源金融文本大数据处理方法,其特征在于,所述生成语义多线程演化图的方法包括:在路径构建过程中,通过词义替换、句法变换、表达动因调整和语义抽象方式引入语义变形机制,生成语义变体节点,并记录语义变体路径;将所有语义线程整合构建为包含主路径、旁路径、语义交叉路径和语义变体路径的语义多线程演化图。

9.根据权利要求8所述的一种网络多源金融文本大数据处理方法,其特征在于,所述调整语义断层判定与构型映射的方法包括:从生成的语义多线程演化图中提取各条演化路径,通过反向映射机制,将演化图中的抽象节点映射回实际的语义表达和对应的原始文本片段;在映射完成后,将推演路径中的语义表达与多源金融文本数据进行对齐比对,识别语义不一致和时间顺序偏差;

基于映射与对比结果,计算语义演化路径的实际偏离度,定义为各事件节点预测语义与真实语义之间误差的均值;同时计算结构一致性偏振值,衡量预测语义多线程演化图与真实语义多线程演化图结构中节点对连接关系的偏差;

基于语义演化路径的实际偏离度和结构一致性偏振值,通过协同误差驱动参数更新机制,动态调整语义断层判定阈值和构型映射参数,实现语义识别逻辑与文本处理之间的持续优化迭代。