近日,广东省广州市档案馆与广州大学人工智能学院联合研发的"数字档案智能筛密系统"正式投入使用,经系统性严格测试,该系统对各类密件的召回率达99%,密件与非密件识别准确率达97%,标志着我国档案智能管理技术取得重大突破。
该系统的研发面临两大技术挑战:涉密数据"不可用"的安全红线和档案数字化成果识别"高复杂度"。“高仿真度的样本合成”的创新性提出和实践,将海量的非密档案的数字化成果作为“背景库”,同时通过技术的手段又生成了数千种不同形态的“密”字标识作为“前景信息”,将两者都有效的融合在一起,生成数十万张既不含任何真实的涉密信息又具备了密件的关键视觉特征的训练样本等。
针对档案数字化副本识别高复杂度的技术难点,项目团队研发出一款数字档案筛密垂类多模态大模型。该模型不仅能精准捕捉标识的局部细节特征,更能通过其独特的"自注意力机制"理解图像的上下文及空间布局信息。为使其适应小样本、高精度的专业任务需求,团队还实施了"渐进式解冻""分层学习率"等一系列精细化训练优化策略,显著提升了模型的识别精度。
在实现算法模型自主创新的同时,广州市档案馆同步完成了全流程、全栈式国产化部署。智能筛密垂类大模型部署于局域网的一台高性能AI算力服务器中,配置了4颗高性能华为鲲鹏48核CPU、1TB内存及8张32GB显存的华为昇腾910B计算卡。
这一硬件平台为模型的稳定运行提供了强大的国产算力支撑,并实现了对PyTorch等主流深度学习框架的良好兼容。系统每小时可处理约2.5万画幅,大幅降低了人力成本与经验误差,彻底改变了传统档案筛密"慢、繁、难"的工作现状。
"自主算法模型+国产硬件平台+物理隔离网络"的综合解决方案是从底层芯片到网络环境再到上层应用的全链路自主可控实践,实现了信息化建设与智能化转型的新突破。这一模式不仅为档案行业树立了标杆,也为其他涉密领域的信息化建设提供了可借鉴的经验。
档案行业专家普遍认为,智能筛密技术是档案管理领域的重要创新,能够显著提升档案安全保密工作的效率和准确性。该技术的问世同时,不仅能有效地破解了长期以来对档案的开放审核所存在的“技术壁垒”和“标准壁垒”,也跨越式地对档案的开放审核质效又上了一大等台阶。
随着人工智能技术的进一步发展,智能筛密技术有望在更多档案馆得到推广应用。根据《"十四五"全国档案事业发展规划》,我国将全面加快档案数字化转型和智能升级,加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用。
随着技术的不断突破,档案智能管理将从目前的局部、浅的智能向更深的、更广的智能方向发展。一方面,通过机器学习、知识图谱、自然语言处理等人工智能技术的创新应用,能够显著提升档案管理的自动化、智能化水平;另一方面,智能技术还能深入挖掘档案数据的潜在价值,促进知识资产化管理,为决策注入数据支撑和知识服务。
广东广州数字档案智能筛密技术的突破,不仅为本地档案管理工作提供了强大技术支持,也为全国档案行业的数字化转型树立了标杆,标志着我国档案事业正加速向智能化、现代化迈进。