2019年12月16日,档案行业标准《纸质档案数字复制件光学字符识别(OCR)工作规范》(DA/T 77—2019)(以下简称《规范》)由国家档案局正式发布,并将于2020年5月1日起实施。《规范》规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理要求,确定了开展档案OCR工作的总体原则、工作流程、质量规定等内容,尤其是对归档章、文件处理单、公章等具有档案特征的内容提出了识别要求,并明确评价指标,对于引导并规范档案OCR工作、进一步提升档案信息化工作水平具有重要意义。
一、编制背景与工作思路
1.1编制背景
档案OCR是指通过信息技术对纸质档案数字图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。一方面,档案OCR是档案信息化工作的重要内容。随着纸质档案数字化的普遍开展和电子档案管理的日渐成熟,档案OCR对于运用电子档案管理思路推动纸质档案管理、实现纸质档案与电子档案融合管理具有很强的现实意义。同时,档案OCR是档案从数字化向数据化转化的重要步骤,是档案数据化工作的重要环节。另一方面,档案OCR也是提升档案工作水平的重要手段。《规范》第9.2条明确了OCR成果应用的3个场景,即通过数字档案馆(室)应用系统实现全文检索,提高档案信息检索效率;辅助开展档案自动著录、目录质量核查,以及纸质档案数字复制件挂接准确性核查等业务工作;结合数据挖掘技术开展数据分析、知识管理、词库建设等工作,提出了档案OCR工作在推动档案工作方面的重要价值。
1.2工作思路
档案OCR不是一项孤立的工作,需要与数字档案馆(室)建设、档案数字化工作等密切结合起来实施,并遵循以下工作原则:一是档案OCR应当纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化。二是档案OCR应当科学开展,以有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘为原则。三是档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字复制件之间应建立准确、可靠的关联关系。四是应当采取有效的管理和技术手段,加强档案OCR过程管理和质量控制,确保档案OCR过程规范、成果可靠、数据安全。五是涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关管理和技术要求。
二、工作组织与流程管理
2.1工作组织
档案OCR工作组织主要包括机构及人员、流程控制、工作文件与元数据要求等。
(1)机构及人员要求
档案OCR工作要求建立机构配备相应素质和技术水平的工作人员,组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。《规范》建议与纸质档案数字化工作统筹配置工作机构和人员。档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查,按规定进行保密教育。
(2)流程控制要求
应依据相关技术标准,对档案OCR图像导入、图像预处理、比对识别、修改校正、成果整理输出等业务环节全过程进行有效控制。应加强对档案 OCR 工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正机制,确保OCR成果质量和档案信息安全。
(3)工作文件与元数据要求
应建立档案 OCR 工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理。应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字复制件管理过程元数据实施融合管理,并纳入数字档案馆(室)应用系统数据库。
2.2工作流程
档案OCR主要包括图像导入、图像预处理、比对识别、修改校正、成果整理输出5个业务环节。其中,图像预处理包括二值化、图像降噪、倾斜校正、图像监测。对比识别包括版式分析、档案特征分析、识别与匹配。成果整理输出包括成果整理、成果输出、成果验收等(如图所示)。
档案OCR工作流程图
《规范》规定的是较为传统的OCR工作流程,有条件的也可以运用机器学习(M L)和卷积神经网络(CNN)等技术开展OCR工作。在5个业务环节中,比对识别是关键环节,《规范》要求针对档案特征进行分析、识别和匹配。其主要内容包括:
(1)归档章分析
要求建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出宗号、年度、机构、保管期限、件号、页数等字段位置。
(2)公文要素分析
要求建立公文格式库,可准确识别公文的版头、主体、版记3部分,识别公章、签章等区域,比照公文样式,识别公文正本的密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素,但份号、发文机关标志、印章、签发人签名章、印发机关和印发日期、页码等公文要素不需要识别。
(3)表格分析
要求建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置。对于文件处理单或发文稿纸,要求识别起草人、签发人、起草时间、签发时间、阅办意见、批办意见、办理结果等内容。
(4)印章分析
要求识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复。
三、质量规定与成果要求
3.1质量规定
《规范》从识别准确率、强抗噪能力、识别速度、版面还原度4个方面对档案OCR质量提出了要求(如表所示)。需要特别说明的是,在档案 OCR 质量要求中,识别速度指标与识别准确率指标应当同时适用。
档案OCR质量要求表
3.2成果要求
(1)成果形式
《规范》要求,档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。保存纯文本形式的,应以纸质档案的件或页为单位输出档案OCR成果,即纸质档案数字复制件保存为一个文件的,档案OCR成果保存为一个TXT文件;纸质档案数字复制件按收发文处理单、正文、定稿等保存为多个文件的,档案OCR成果分别保存多个TXT文件;纸质档案数字复制件按页保存为多个文件的,档案OCR成果每页保存一个TXT文件。保存为双层PDF/OFD的,应根据纸质档案数字复制件版式文件格式,自动形成支持全文检索的双层
PDF或OFD文件。
(2)保存要求
《规范》要求,以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以按照档号构成项逐级建立文件夹单独保存,也可与纸质档案数字复制件统一保存。支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。对于档案OCR成果中的党政机关公文要素,应按照档案著录规则和电子档案元数据规范,保存到数字档案馆(室)应用系统数据库中。
内容转载自《中国档案》