浅谈馆藏纸质档案数字化前整理中遇到的问题及处理方法
在大数据时代,政府成为最大规模的信息采集者,档案馆作为自然的数据集散地,对大数据的分析处理和增值应用,将成为未来档案开发利用的重要内容,档案馆坐拥庞大的数据资源应该成为巨大社会价值的产出地。原有纸质档案,要想在大数据环境下发挥更大作用,必须对其进行数字化,其中,数字化成果的质量是关键。如果数字化的成果无法使用,则浪费了人力物力,前功尽弃,毫无意义。做好数字化工作,前期整理是确保质量的必要基础。前整理工作直接决定了档案数字化工作的质量。自2013 年起,山东省档案馆开始大规模开展馆藏纸质档案数字化工作,随着工作的推进,在档案前整理过程中遇到了一些问题,笔者结合工作实际,就前整理环节中经常遇到的问题及处理方法进行探讨。
档案前整理主要包括: 档案交接、档案拆订、编写页码、破损档案裱糊、目录比对、区分档案能否扫描等环节,每个环节都关系到数字化后续工作能否顺利开展。
一、前整理中遇到的问题
(一) 原始档案页码存在漏编、重编、混乱、页码不连续等情况
目前馆藏档案,尤其是五六十年代的档案,页码存在问题较多。有的档案没有编页码,有的一张编有多个页码,还有部分档案页码整体混乱,没有一个有效的、连续的页码。诸如此类页码不规范问题,会对数字化后续工作带来很大困扰,造成扫描出现错误、质检人员工作速度降低、劳动成本增加等。
(二) 卷内文件目录有漏编、错编现象
经常有在内容上毫无关联的文件,在本应单独录入为几条目录数据的情况下,被确定为一件,只有第一件的相关内容被录入数据库中,而其余几件文件则被忽略。另有档案目录数据著录项目与实体档案不符,主要有题名不能准确全面地揭示文件材料的内容,责任者、文号、成文时间是不是准确等,直接关系到档案检索的效率和准确性,导致档案利用率降低。目录数据内容的录入越准确、越全面,检索的速度就越快,准确性就越高。如果录入时对题名、文号、责任者等著录项目的处理敷衍了事,目录数据不能反映档案内容信息,最终只能是造就一堆垃圾数据。
(三) 原始档案有破损、霉变、虫蛀、字迹扩散等现象
早期档案受年代久远、保管条件不善以及所用纸张和书写笔不规范等条件的影响,档案受到破坏,部分档案损坏严重,无法进行扫描。
(四) 原始档案缺失
通过对页码、内容、目录等进行比对,发现档案内容有明显缺失。
(五) 原始档案内容混乱
由于装订时,未能对档案进行正确排序,致使部分档案内容顺序颠倒,主要是单件内档案排序错误,有少量出现整卷排序混乱。
(六) 原始档案内容涉及敏感信息
如档案内容涉及敏感事件、个人隐私信息,甚至涉及国家利益等。
(七) 原始档案内有订书钉、曲别针、大头针等金属氧化物
有些档案由于年达久远,生锈的档案装订物已经对档案造成了损害。
二、对前整理中遇到问题的处理方法
(一) 对页码问题的处理
前整理人员先对整卷档案进行检查,如页码混乱是由于早期装订错误造成的,则按页码顺序对实体档案重新整理。如确为档案页码错误,根据«纸质档案数字化技术规范» 等的要求,要对整卷档案重新编制新的页码。
(二) 对卷内文件目录有漏编、错编的处理
1 卷内目录出现漏编情况时,前整理人员要根据档案内容,重新进行分件整理,并按照«档案著录规则» 的要求编写目录,同时在机读目录中增加条目。
2 卷内目录出现错编情况的修改
(1) 题名文字录入错误
一是录入时的错别字较多,如“工业” 录入“工叶”;二是录入一些不规范的简化字,如“予算” 实际应为“预算”,“付省长” 实际应为“副省长” 等。其次是题名揭示的内容不准确、不全面。部分档案文件材料题名按照标题录入为“通知” “会议材料” “党组会议” 等,没有可用的检索信息;人事任免文件、干部调动函等,只照原标题录入一个人的名字,未将涉及的全部人名列举;还有一些自拟题目不能准确概括全文,如一件档案中既有请示也有批复,而题名只写请示。在现有技术条件下,数字化副本以图像形式存储,无法使用全文检索方式,虽然现在数字化都要求OCR 识别,但是由于早期档案质量不高,造成识别不正确甚至识别不出,尤其是五六十年代的档案很多都是手写的,根本不可能进行文字识别,所以题名包含的信息量最大最多,是当前进行计算机检索时最重要的途径。题名一旦出现错误,就可能导致档案成为“死档”。前整理人员要根据档案实际对目录的所有著录项进行检查,发现错误及时对卷内目录和机读目录进行修改。
(2) 同一责任者名称不统一或不规范
按照著录规则要求,责任者应录入全称或通用简称,并保持统一。录入时经常出现有时用全称,有时用简称,简称有时也不规范,同一个责任者往往有几种不同的录入法,如“山东省委宣传部” (正确)、“山东省宣传部”、“山东宣传部” 甚至直接录入为“宣传部”。还有的录入人员不管文件的实际责任者,直接把全宗单位名称作为每份文件的责任者,如农业厅全宗的案卷,卷内材料的责任者全部录为“XX 农业厅”。对于出现的错误,要根据«档案著录规则» 要求,进行修正。
(3) 文号录入不全或错误
录入时经常不录入完整的文号,只录入文号中年度和发文顺序号两部分,对今后检索造成麻烦。对联合发文时的一文多文号的,也往往只录一个,漏掉了其他的文号。还有一些文号录入时出现文字错误或年度错误。文号的录入应符合当时的实际文号格式,根据规范,修改错误的文号,增添漏录的文号。
(4) 成文时间标注错漏
部分错误,是录入时误录造成的,有一些是档案本身有时间但未录入,还有一些,是档案本身没有注明确切时间,但可考证出来而未认真考证造成的。对这些错误,都要根据«档案著录规则» 的要求进行修改。
(三) 对原始档案有破损、霉变、虫蛀、字迹扩散等情况的处理
发现此类情况时,前整理人员首先对档案进行检查,确认能否扫描,对破损不严重或折皱不平影响图像质量的纸质档案,应先进行简单修复或压平等相应处理后再进行扫描。如无法扫描,则在机读目录附注项内注明“本件档案破损严重,未数字化”。
同时,前整理人员要把所有此类档案做好登记,并移交给具有档案修复职能的相关处室,由他们对档案进行修复处理。以此,把档案数字化前处理工作与破损档案的抢救修复工作结合起来,借助数字化的东风,把档案的基础工作做得更加扎实。
(四) 对原始档案出现缺失情况的处理
档案前整理人员要对整卷档案进行检查,确认是否由于装订错误的原因造成档案放置顺序出现错误。如经过检查发现档案确实缺失,前整理人员要将情况在机读目录附注项中注明,如“第2 件档案有缺失”。
(五) 对原始档案内容混乱情况的处理
前整理人员要根据卷内目录和档案内容实际,对档案重新进行整理排序,并编制新页码。
(六) 对原始档案内容涉及敏感信息情况的处理
前整理人员通过卷内目录和档案内容进行判断,如档案内容涉及敏感信息,则不扫描全文,并将原因记录到机读目录附注项中,如“此件档案内容涉及敏感信息,未扫描”。
(七) 对原始档案内有订书钉、曲别针、大头针等金属氧化物情况的处理
从对档案保护的角度出发,如不拆除,装订物如果生锈,便会破坏档案,在确保拆除装订物不会对档案实体造成伤害的情况下,应将此类装订物拆除。但是,由于数字化公司技术能力的限制,部分档案拆除装订物后会破坏档案实体,碰到这种情况,暂不拆除装订物,前整理人员要做好登记,分批次移交给档案部门相关处室,由专业人员处理,待拆除装订物后再进行数字化。
三、对今后如何做好档案数字化前整理工作的几点建议
(一) 建立健全各项规章制度
为确保档案前整理工作的安全、高效,必须制定符合实际的各项规章制度,使前整理工作有章可循、有规可依。涉及档案数字化前整理工作制定的规章主要有档案数字化加工现场管理规定、档案数字化加工安全保密规定、数字化工作流程、档案出入库房制度、档案前整理技术规范等,尤其是在最关键也是问题最多的题名录入方面,我们根据前整理工作中发现的各种问题,专门制定了题名修改技术规范;承担档案数字化工作的承包公司,为保证项目顺利完成制定的管理制度包括数字化工作制度、人事管理制度、数字化现场管理制度、保密制度等。通过一系列规章制度的建立,保证了前整理工作的规范化、科学化。
(二) 档案管理部门要全程跟踪管理
档案管理部门在数字化过程中,要采取各种有效的管理措施和技术手段,加强管理和监控。前处理过程中可能会遇到各种各样的问题,通过安排档案馆工作人员现场值班的方式,可以随时解决工作中出现的问题,指导工作开展,还能起到监督作用,既能提高工作效率又能消除工作隐患。
(三) 强化监理功能,提高工作效率
数字化工作是一项大的工程,由于档案管理部门人手紧张,许多工作不可能面面俱到,如项目监督、验收等环节需要许多人力去完成,单单依靠档案管理部门人员很难去完成。为此,我们通过招标方式引进了数字化监理公司,对数字化的各个环节进行全方位、全程的管理、控制和协调,达到了对项目的建设方案、工作流程、工作进度、技术培训等进行全面控制的目的。包括在前整理环节上,监理人员一方面可对工作进行指导,另一方面对前整理工作开展监督检查,发现问题及时纠正。
总之,提高档案数字化的整体效益,适应当前大数据时代的潮流,挖掘档案信息资源,馆藏档案数字化的前整理是非常重要的环节,一定要抓好前处理这个数字化的基础环节,以此提高数字化质量。