“为什么档案工作者不数字化所有的文件记录呢?”作为档案工作者,我们很乐于回答这些疑问。因为这类问题既向我们展现了人们对档案记录的渴求,同时,也表明人们已经意识到并不是所有的文件记录都被数字化了。
实际上,档案工作者和图书馆管理员是互联网上已有的大量原始文献的幕后加工者。从珍贵典籍到官方文件,从日记到音频记录,这些数字化后的原始文献在向公众诉说:过去将会告知我们现在和未来的故事。与此同时,非营利性组织和商业性组织均将文件资料的数字化作为工作主要任务,这种举措提高了社会大众获取历史文献资源的期望值。
我们希望和公众分享有关珍贵文献资料数字化工作的幕后情况,提高社会公众对档案数字化共享的了解和认识。首先,要了解档案工作者为什么要开展文件数字化工作。
如果当该份文件即将面临无法使用的危险时,比如,一份纸质地图变成碎片,一份信件褪色到模糊不清,又或者一盘磁带变脆或无法播放。在这种情况下,数字化工作将生成这些文件记录的电子图像,并保存从文件记录中所收集到的信息。但这并不是说将克隆出原始文件,而是会产生一个数字化的原件“代替品”,仅从某个角度上说,可将其视为原始文件。
档案工作者常说,大规模的数字化工作各种成本高昂。人们也会对此感到质疑,毕竟,给你高中时期的年鉴拍张照片并分享到微博上,或者对一些旧的明信片进行扫描并上传至博客是很容易的。
在从事文件档案数字化工作时我们主要关注两类档案文件记录:纸质文件和照片。面对的挑战主要为:涉及材料本身的复杂性以及数字化过程本身。所有这些表明,机构内部大规模数字化工作不同于普通家庭的简单扫描操作。另外,诸如老式音频记录、电影胶片等模拟媒体的数字化工作所面临的挑战更加紧迫(无法找到播放设备等原因)。
档案馆保存有大量档案资源。即使是一个中等规模的档案机构,在衡量其档案库存时也是以公里为单位。档案架上的每个盒子可以容纳700到1800张纸不等,甚至可容纳更多照片、底片和幻灯片。即使是一个很小的档案全宗的数字化工作也是一项不轻松的任务。
大部分档案案卷并不易被快速的扫描。扫描一叠纸的最快方式是使用自动进纸器,但是自动进纸器只能处理大小尺寸一样的纸张。这种快速处理方式可能有卡纸的风险。
对于独一无二的档案文件而言,手工扫描是最负责任的选择。针对每一件要扫描的档案,从去除订书针到定位需数字化的内容,再到图像处理、录入元数据,有很多步骤。有时扫描每个档案盒上的记录可能都需要花上几天时间。
这个存有相互关联的政府文件记录的独立卷宗中包含了各种大小、形状和格式的文件记录。这种多样性使文件的数字化变得更具挑战性。
针对不同尺寸和规格的档案案卷,不断调整扫描参数会增加更多数字化工作的时间。如果需要数字化的档案幅面十分大,可能还需要将单独扫描的部分拼接在一起。
有时,档案馆会选择用拍摄照片代替扫描,这样就需要一个专业的照相设备,包括外部闪光灯、不同镜头等。另外,那些已经损坏、褶皱、粗糙或反光的档案也需要熟练的处理。
扫描并不会生成一份档案的精确副本,而只是复原该份档案的某些内容。数字化过程还会产生元数据。为使计算机系统能够理解和检索文件集,对其进行描述性工作是必要的。没有此项工作,数字化工作产生的文件不过是成千上万份未分类的无用文件。
因为数字化工作牵扯大量时间和资源的投入,我们必须确保所做的选择是正确的,这也意味着我们要将数字化处理的过程纳入质量控制检查之中。
数字化工作的成果受到扫描分辨率、摄影技巧、录入准确性等一系列因素影响。作为档案工作者,我们有责任确保人们获得可靠、真实的文件记录。
人们误以为,信息一旦以数字形式被捕获,将会自动地被长期保存下来。而事实上并非如此。因此,这意味着档案工作者还要对数字化产生的文件进行定期维护。
数字文件被认为具有非实体性、不受腐蚀的特点。然而,数字文件也具有实体状态,同时与自身所模拟的对象一样,将经历劣化和失真的过程。数字化数据的实质是数以百万计的磁荷或电荷。亚原子水平的微小偏移足以引发一连串的错误。即使是不在驱动器上使用的数据也会随着时间的推移而随机劣化。
除了数据劣化的问题,档案工作者还必须思考当前文件格式在未来的可读取性问题。如果在软硬件设施过时的情况下,没人能顺利打开文件,那么进行大规模的数字化工作将变得没有意义。
因此,档案工作者站在数字持久性的前端。他们正在研制通用的文件格式标准,并对数字化数据定期更新、迁移、备份。顺便说一句,实际上硬盘或闪存驱动器的平均使用寿命无法与存储在最佳环境下的纸张寿命相提并论。
数字化工作的开展依赖于大量技术设备和人力的投入。一些大型档案馆保留了由专业人员组成的数字化团队。较小机构的文件数字化工作往往是在合作伙伴的资助下分散进行的。
档案工作者在将一组档案完成数字化后,如实现在互联网上共享,需要参照一个规范的流程。
首先,档案工作者必须确保拥有第一时间自由分享这些档案文件的权限。如一些档案文件的捐赠者并不希望某些内容在特定时间内被公众获取;健在公民的敏感性信息可能会隐藏于个人档案中;档案文件中涉及一些知识产权也可能被禁止广泛分享。
毫无疑问的是,在开展数字化工作之前,我们通常会对档案案卷进行评估,以确定其是否为合格的档案数字化和共享的“候选者”。这个评估的过程本身也需要时间,这导致数字化工作在时间和资源上的投资变得更大了。
希望通过上述介绍,大家能了解到档案工作者正有条不紊地开展数字化项目的实际情况,以及为什么我们永远不能将所有档案文件都数字化。数字化工作本身就是一个不断发展的过程,实现档案的访问与获取,传播档案知识和信息才是数字化的最重要的目的。
作者:澳大利亚皮尔地区档案馆
李子林 王 存 孔祥盛 陈 洁 编译
原载于《中国档案报》2017年7月17日 总第3093期 第三版