1.一种档案分类编码方法,其特征在于:包括档案分类和档案编号两个步骤;
在档案分类中:
步骤A1:数据准备,收集通过光学字符识别技术提取的电子档案,进行数据预处理,做数据清洗、分词;
步骤A2:特征提取,将步骤1准备好的文本数据转化为计算机可理解的数值,从不同类型档案文本中提取出能够反映其语义信息的特征向量;加载RoBERTa‑wwm‑ext预训练模型及其对应的分词器,使用RoBERTa‑wwm‑ext的分词器对清洗和分词后的档案文本进行编码,将每个词(token)转换为模型词汇表中对应的ID,对于超出词汇表的词(Out‑of‑Vocabulary,OOV),使用特殊标记[UNK]表示;将编码后的档案文本输入RoBERTa‑wwm‑ext模型,获取每个token的隐藏状态(hidden states),RoBERTa‑wwm‑ext模型的输出是一个隐藏状态矩阵:;
其中,是所有token的隐藏状态矩阵,是档案文本的token数量,是第 个token的隐藏状态,维度为768;
从隐藏状态矩阵 中提取[CLS]标记对应的隐藏状态 ,作为整个档案文本的全局语义表示,[CLS]标记的隐藏状态经过预训练模型的优化,能够捕捉档案文本的整体语义信息;每个档案文本样本的特征向量为:;
其中, 是[CLS]标记的隐藏状态,维度为768;
构建特征矩阵:将所有样本的[CLS]标记的隐藏状态拼接成一个特征矩阵X,作为分类模型的输入特征:;
其中,是特征矩阵,是档案数据样本的数量, 是第 个样本的特征向量;
步骤A3:分类模型设计;分类模型的结构包括RoBERTa‑wwm‑ext模型、池化层和全连接层,RoBERTa‑wwm‑ext模型用于生成档案文本的上下文表示,池化层对RoBERTa‑wwm‑ext的输出进行池化,提取全局特征,全连接层将池化后的特征映射到分类标签空间,输出类别概率;
步骤A4:模型训练,将数据集划分为训练集、验证集和测试集,使用训练集训练模型,设置学习率、批量大小、训练轮数的超参数,通过交叉熵损失函数计算模型预测值与真实标签的差异,使用Adam优化器通过一阶矩估计和二阶矩估计来更新模型参数,并在验证集上评估模型性能,在测试集上测试其准确率;交叉熵损失函数公式为:;
其中, 为交叉熵损失, 为训练集档案数据样本的数量,为档案类别数量, 为真实标签,表示第 个样本是否属于第 个类别,当样本 属于类别 时, 为1,否则为0, 为模型预测样本 属于类别 的概率;
步骤A5:模型部署,将训练好的模型部署为RESTful API,供档案扫描模块调用,接收档案文本并返回分类结果;
步骤A6:持续学习,设置定期任务,收集新入库的档案数据,使用新数据更新模型参数,同时防止对已有知识的遗忘;
在档案编号中:
步骤S1:制定档案编号结构:年份‑分类编码‑档案存储编码‑唯一标识码;
其中,年份为档案通过档案扫描模块完成扫描的时间,用4位数字表示;
分类编码为通过档案分类模型生成的代码,用2‑3位字母表示;
档案存储编码为档案存储库为实体档案分配的储存位置代码,用1位字母+2位数字表示;
唯一标识码为某一档案存储柜内的档案顺序代码,用3位数字表示;
步骤S2:档案编号生成;
步骤S21:访问调阅记录模块获取档案扫描时间;
步骤S22:通过档案分类模型对档案进行分类,获取分类编码;
步骤S23:访问档案存储库获取为实体档案分配的储存位置代码和该档案存储柜内的档案顺序代码;
步骤S24:结合年份、分类编码档案存储编码和唯一标识符,生成最终档案编号;
步骤S3:档案编号录入,将档案编号录入电子档案文本中,同时为实体档案制作NFC标签,将档案编码写入NFC标签中。
2.根据权利要求1所述的档案分类编码方法,其特征在于:在档案分类中,步骤A3包括:RoBERTa‑wwm‑ext输出:输入的档案文本经过RoBERTa‑wwm‑ext模型后,得到所有token的隐藏状态:;
其中,是所有token的隐藏状态矩阵,是档案文本的token数量,是第 个token的隐藏状态,维度为768;
池化层输出:
为了提取整个档案文本的全局特征,采用最大池化方法对隐藏状态矩阵进行池化操作;
按维度取最大值:对隐藏状态矩阵 的每一列即每个隐藏状态的维度取最大值,得到全局特征向量 :;
其中, 表示第 个token的第 个隐藏状态维度;
输出全局特征向量:最大池化后的全局特征向量 是一个768维的向量,能够捕捉档案文本中最显著的特征信息;
全连接层输出:
将池化层输出的全局特征向量 输入到全连接层,进一步映射到分类标签空间,完成最终的分类任务;
线性变换:将全局特征向量 输入全连接层,进行线性变换:;
其中: 是权重矩阵,维度为 ,是档案类别数量;是偏置向量,维度为C;是分类得分向量,维度为 ;
Softmax激活:对分类得分向量 进行Softmax操作,得到档案样本的类别概率分布:;
其中, 表示第 个样本属于第 个类别的概率, 表示第 个样本在第 个类别的分类得分, 表示第 个样本在第 个类别的分类得分,表示类别数量;
输出分类结果:选择概率最大的类别 作为最终的分
类结果。
3.根据权利要求1所述的档案分类编码方法,其特征在于:在档案分类中步骤A6包括以下步骤:步骤A61:数据准备和预处理,定期从档案扫描模块中收集新入库的档案数据,对新数据进行清洗、去噪,为新数据分配类别标签,通过同义词替换、随机删除技术增加数据的多样性;
步骤A62:模型初始化,使用之前训练好的模型作为初始模型,在初始阶段冻结模型部分层,只训练全连接层,以防止模型在新数据上过拟合;
步骤A63:损失函数设计,使用初始模型作为教师模型,新模型作为学生模型,通过蒸馏损失函数保留已有知识,蒸馏损失函数为:;
其中, 为蒸馏损失, 为档案数据样本的数量,为档案类别数量, 表示教师模型认为样本 属于类别 的概率, 表示学生模型认为样本 属于类别 的概率;
弹性权重固化损失,弹性权重固化是一种持续学习技术,通过惩罚重要权重的变化,防止模型在学习新任务时遗忘旧任务的知识,弹性权重固化损失函数为:;
其中,为惩罚系数,用于控制EWC损失的强度,越大,模型对旧知识的保留越强, 为权重的重要性,表示第 个权重对旧任务的重要性, 为当前模型的第 个权重, 为初始模型的第 个权重;
通过实验调整确定,根据经验设定初始值,验证评估模型的性能,选择使模型在新任务上表现良好且对旧任务遗忘最少的 值,通过Fisher信息矩阵计算得到, 是模型训练过程中不断更新的参数,在每次迭代中,通过Adam优化器更新 , 通过在旧任务上训练模型,直至模型收敛,对权重进行保存;
计算交叉熵损失,蒸馏损失和EWC损失,结合蒸馏损失、EWC损失和交叉熵损失,确定总损失,使用总损失函数训练学生模型:;
其中,为知识蒸馏损失的权重系数,用于控制知识蒸馏对总损失的影响,为弹性权重固化损失的权重系数,用于控制EWC对总损失的影响, 、 、 :分别为交叉熵损失、知识蒸馏损失和弹性权重固化损失;
越大,模型越倾向于模仿教师模型的行为,保留旧任务的知识,越大,模型越倾向于保留旧任务的关键权重,防止遗忘,和 取值通过网格搜索实验选择在新任务上表现良好且对旧任务遗忘最少的 , 组合来确定;
步骤A64:使用Adam优化器进行模型训练,更新模型参数,记录模型的准确率、召回率指标,确保模型没有遗忘旧知识;
步骤A65:模型部署,将优化后的模型部署为RESTful API,接收档案文本并返回分类结果,设置定期任务,自动收集新数据并更新模型。
4.一种档案管理系统,基于权利要求1~3任一权利要求所述的档案分类编码方法,其特征在于:包括,档案登记端,档案存储库和档案调阅端;
所述档案登记端设有:档案扫描模块、档案编码模块;
所述档案存储库为智能密集柜,设有:多个档案存储柜、档案云端和档案销毁模块;
所述档案调阅端设有:电子档案调阅模块、实体档案调阅模块和调阅记录模块;
所述档案扫描模块对需要入库的实体档案进行光学字符识别,识别档案内容并生成可编辑的电子档案;
所述档案扫描模块部署有基于RoBERTa‑wwm‑ext的档案分类模型,通过采用光学字符识别的电子档案对模型进行训练,定期使用新档案数据更新模型参数,通过知识蒸馏和弹性权重固化对模型进行优化,得到定期更新的档案分类;
所述档案存储库为新入库的实体档案快速分配存储位置并打印储存条码;
所述档案编码模块为扫描后的电子档案生成档案编号,将档案编号录入电子档案文本中,编号后的电子档案上传至档案云端,同时为实体档案制作NFC标签,将档案编码写入NFC标签中;
粘贴NFC标签和储存条码的实体档案由档案存储柜接收,档案存储柜通过识别NFC标签或储存条码进行开锁,完成实体档案存储,档案存储柜设有档案调阅控制模块,管理员通过操作档案调阅控制模块进行档案存取;
所述档案销毁模块设有碎纸机和数据擦除模块,用于对保管期满,确无保存价值的实体档案和电子档案的销毁,销毁过程自动记录并生成销毁报告;
所述电子档案调阅模块提供电子档案的在线调阅服务,所述实体档案调阅模块管理实体档案的调阅流程,所述调阅记录模块记录所有档案的调阅和更新信息。
5.根据权利要求4所述的档案管理系统,其特征在于:所述档案编码模块在档案分类的基础上,结合档案分类类型、档案存储位置、年份和唯一标识符,生成档案编号。
6.根据权利要求4所述的档案管理系统,其特征在于:所述档案调阅模块与档案云端紧密集成,管理员通过关键词、档案编号、分类类型、年份快速检索档案;档案调阅模块提供权限分级管理,管理员为档案调阅模块设置不同用户的访问权限,确保敏感档案仅对授权人员开放。
7.根据权利要求4所述的档案管理系统,其特征在于:所述实体档案调阅模块管理实体档案的调阅流程,管理员通过档案调阅模块提交实体档案调阅申请,实体档案调阅模块定位档案存储位置通知管理员,并驱动档案存储柜的档案调阅控制模块开放档案存储柜。
8.根据权利要求4所述的档案管理系统,其特征在于:所述调阅记录模块记录所有档案的调阅和更新信息,生成调阅日志,记录档案扫描时间、调阅者、调阅时间、调阅目的信息以及销毁记录,生成调阅数据分析报表,帮助管理员优化档案管理流程。
9.根据权利要求4所述的档案管理系统,其特征在于:所述档案管理系统还包括环境监测模块,所述环境监测模块实时监控档案室的环境参数,确保档案的长期保存;所述环境监测模块集成有:温湿度监测调节设备、消防警报设备、空气调节设备、和光照调节设备;
所述温湿度监测调节设备实时监测档案存储柜的温度和湿度,当温湿度低于14℃或者高于24℃,湿度低于43%、高于60%时,对监测档案存储柜的温度和湿度进行调节;
所述消防警报设备实时监测档案存储柜的烟雾浓度,当检测到有烟雾时,进行报警并进行消防灭火除烟;
所述空气调节设备实时监测档案存储柜的灰尘浓度、有害气体浓度,当灰尘浓度过超
0.15mg/m³,PM2.5超过75μg/m³时,进行空气净化,当二氧化硫、氮氧化物的浓度超过
0.01mg/m³时,进行通风;
所述光照调节设备对档案存储柜和室内的灯光进行调节,执行照明、紫外照射杀菌的功能。