1.一种基于自然语言处理的史料文本自动分类方法,其特征在于,包括以下步骤:采集原始史料文本数据,并对所述原始史料文本数据进行预处理;
构建文本特征图谱,所述文本特征图谱包含多个文本实体节点、实体间的语义关联关系以及每个文本实体节点的特征信息;
通过文本分析算法识别所述文本特征图谱中的核心语义簇、离散语义片段并定位关键实体节点;
根据所述核心语义簇与关键实体节点生成初步分类策略集合,所述初步分类策略集合包含语义重映射方案、分类结构调整方案及权重调整方案;
接收用户校正指令,依据所述用户校正指令确定分类修正类型,基于所述分类修正类型对所述初步分类策略集合进行自适应调整;
执行自适应调整后的初步分类策略集合,并依据分类结果更新所述文本特征图谱。
2.根据权利要求1所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述构建文本特征图谱的实现过程包括:从多源史料库采集文本样本,所述文本样本包括典籍文献、历史档案及年代记录;
对所述文本样本进行多层次特征抽取,生成文本实体节点的特征信息,所述特征信息包括实体类型、语义密度、年代可信度、上下文连贯性、历史关联强度及动态重要性;
所述年代可信度根据文献来源权威性、交叉验证程度及年代一致性动态计算;
所述动态重要性通过多维度指标融合计算获得,其中包括:将历史关联强度与预设的基准关联强度进行归一化比较后与重要性系数相乘;
将语义密度与平均语义密度比值同调节系数相结合;
将上下文连贯性数值与全局连贯性基准的比值乘以权重因子;
将上述三个维度的计算结果进行加权融合,得到所述动态重要性。
3.根据权利要求2所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述文本特征图谱的拓扑关系中:文本实体节点通过无向边连接,所述无向边表示语义关联强度及逻辑依赖关系;
每个文本实体节点绑定所述特征信息,形成包含实体类型标签、语义密度数值、年代可信度、上下文连贯性、历史关联强度及动态重要性参数的完整节点描述;
所述语义关联强度的计算过程包括:
统计节点间共现频率与逻辑依赖次数;
对共现频率进行最大值归一化,获得标准共现比例;
对逻辑依赖次数进行阈值截断与缩放处理,得到标准依赖强度;
结合所述文本实体节点的语义密度,计算加权后的语义关联强度。
4.根据权利要求3所述的基于自然语言处理的史料文本自动分类方法,其特征在于,通过文本分析算法识别核心语义簇与离散语义片段包括:采用社群检测算法遍历所述文本特征图谱,提取所有具备高内部关联的语义子图;
计算每个语义子图的聚合度;
将所述聚合度与预设的聚合阈值区间进行比对,区分核心语义簇与离散语义片段;
对识别出的核心语义簇与离散语义片段执行差异分析,定位关键实体节点,包括:提取核心语义簇中语义关联强度最高的节点,标记为核心节点;
在离散语义片段中筛选动态重要性最低的节点,若多个节点具备相同的最低动态重要性,则比较其历史关联强度,将历史关联强度最弱的节点确定为关键实体节点。
5.根据权利要求4所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述语义子图的聚合度计算包括:提取子图中所有节点的动态重要性,计算其算术平均值;
提取子图中所有无向边的语义关联强度,计算其几何平均值;
统计子图中实体节点的数量;
将所述算术平均值、几何平均值及实体节点数量输入至聚合函数中,输出聚合度数值,该数值用于评估语义子图的内部一致性与分类稳定性。
6.根据权利要求5所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述生成初步分类策略集合包括:针对离散语义片段生成语义重映射方案,包括:提取所述关键实体节点及其相邻节点;
筛选语义密度高于设定阈值且动态重要性满足冗余条件的相邻节点;
计算所述关键实体节点的语义缺失量,即预期语义影响力与实际语义影响力之差;
依据相邻节点的语义冗余能力及语义关联强度,按优先级分配语义映射关系,生成语义重分配指令;
针对核心语义簇生成分类结构调整方案,包括:提取核心节点及其关联路径;
若关联路径中的逻辑依赖关系数目超过容限或年代可信度低于可信阈值,执行结构优化操作:寻找语义关联强度不低于原路径且逻辑依赖更简洁的替代路径;
若不存在替代路径,则保留原结构,但触发结构异常提示并生成辅助分类建议;
生成优化后的分类结构指令。
7.根据权利要求6所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述初步分类策略集合还包括权重调整方案:实时监测新输入文本的年代信息与语义标签;
基于所述年代可信度计算规则和动态重要性生成规则,重新计算冲突节点的动态重要性;
若多个文本实体节点在分类过程中出现语义重叠,按以下规则处理:优先保留年代可信度较高的节点;
若年代可信度相同,则依据历史关联强度决定优先级;
若年代可信度与历史关联强度均相同,则按上下文连贯性从高到低排序;
调整分类队列顺序,将动态重要性最高的节点优先分类,并分配独立语义容器;
对动态重要性较低的节点生成延迟处理建议,包括临时缓存与异步分类安排。
8.根据权利要求2所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述用户校正指令包括节点特征修正、语义关系调整及重要性重定义。
9.根据权利要求2所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述自适应调整包括:若用户校正指令要求节点特征修正,则重新计算受影响节点的动态重要性,并调整语义重映射方案;
若用户校正指令涉及语义关系调整,则更新语义关联强度并重新评估核心语义簇,生成新的分类结构调整方案;
若用户校正指令为重要性重定义,则采用用户输入的重要性数值覆盖原动态重要性,并同步更新权重调整方案。
10.根据权利要求2所述的基于自然语言处理的史料文本自动分类方法,其特征在于,所述依据分类结果更新所述文本特征图谱包括:执行分类策略后的输出数据,包括语义重映射完成度、分类结构一致性及节点权重符合度;
根据所述输出数据更新文本实体节点的特征信息,包括重新计算历史关联强度、上下文连贯性及动态重要性;
利用更新后的特征信息调整文本特征图谱的拓扑关系与语义关联强度。