从数字化前整理迈向数字化后整理
(一) 数字化前整理
在目前这股席卷档案界的数字化浪潮中,档案整理工作者最直观的感受就是将传统的整理工作纳入了数字化工程的流程之中,成为数字化工程的第一个重要工作环节,称之为“数字化前整理”。
从各地档案馆开展档案数字化的实践上看,数字化前整理工作主要目标是解决案卷实体长期存在的一些问题,集中表现在以下几个方面:
一是档号不规范,没有目录号一卷多册现象较多;
二是案卷标题不规范,有标题但不能反映主题内容,或标题缺少基本要素;
三是许多案卷没有编页,如果使用中掉页很难发现;
四是组卷混乱、标准不统一,有按时间组卷的,也有按职能部门管辖权限组卷的,还有按文种组卷的;
五是案卷厚薄不一,薄的仅一二页纸一卷,厚的达六七百页纸一卷。
这些问题的共性是不规范,而不规范是推进数字化工作的一大障碍,必须加以克服。由此可见,数字化前整理工作环节的目的是夯实基础,确保后续各环节能够达成标准化、规范化和精准化的指标。目前,各地档案馆经过大规模的、集中的数字化扫描,形成并积累了巨量的电子档案数据,并逐步以电子档案代替档案原件对社会开放,基本消除了开放利用过程中档案实体的安全隐患,一举解决了长期存在的档案开放与保管的矛盾。
数字化前整理主要工作对象依然是纸质案卷的实体,所遵循的原则依然是传统的案卷整理中一贯强调的“保持文件之间的历史联系”“利用档案原有基础”“必须便于保管和利用”等原则,所采取的工作手段依然是以手工操作为主,所以说尽管被纳入了数字化工程的流程之中,数字化前整理从本质上是从传统的整理模式向现代数字整理模式转换的一种过渡形态。
(二) 数字化后整理
所谓数字化后整理,也就是对扫描产生的电子档案进行后期处理、精细化再加工,是对档案信息的深度挖掘。
1 推进数字化后整理的必要性
之所以要推进数字化后整理,主要的原因在于此时的电子档案,毕竟是案卷级整理加工的产物,所形成的案卷级标题存在着先天性缺陷,因而导致了案卷级目录检索系统是一种不完善的检索系统。为了克服这种不完善,就必须再进行数字化后整理。
案卷级目录体系的先天性缺陷有两点,即题写案卷标题时的人为性和概括性。
(1) 人为性
档案整理人员整理立卷的过程,实际是对卷内文件信息进行加工处理的过程。从信息学的角度看,人们对外界信息的理解,要受特定的环境因素,如社会政治、经济、文化条件以及自身经历、素质、态度、知识结构和心理特征等的影响,这称为“选择性理解”。不同的人对于同一信息可以有不同的加工处理方式,产生不同的反应,得出不同的结论。英国有句谚语: 有1000个读者,就有1000 个“哈姆雷特”。同样的道理,面对相同的一堆零散文档资料,有1000 个档案整理人员,就能整理出1000 个不同的案卷、撰写出1000 条不同的案卷标题来。
传统的以“卷” 为单位的整理方法是一种经验型的整理方法。“卷” 不是自然存在的事物,它是档案机构为了保管和利用的方便,对一组文件进行事后加工整理的产物。灵活运用“六个特征” (问题、作者、时间、名称、通讯者和地区) 以保持文件之间的历史联系,并便于利用和保管,是整理档案材料的基本原则,也是衡量案卷质量的主要标准。然而这种标准只是一种主观标准,并非客观标准。分类组卷、案卷标题的拟写等,只能凭个人的经验、凭主观判断来完成。由于这种整理方式的人为性太强,因而整理结果难以把握,其科学性也就大打折扣。
(2) 概括性
根据笔者对中国第二历史档案馆(以下简称“二史馆” ) 馆藏档案的抽样统计,二史馆平均每卷的页数在100 页左右,每一个案卷平均由20 份文件组成,每份文件都反映不同的内容。而在传统的以“卷” 为单位的整理方式中,案卷题名的字数一般被限制在50 个字之内。以如此“精练” 之文字来揭示如此丰富之卷内内容,其难度之大、技巧之高可想而知。所以,对于题写案卷标题的基本要求历来是: 以简练准确的文字概括揭示卷内文件最基本、最主要的内容与成分。换而言之,案卷内其他非基本、非主要的文件内容是允许忽略不计的。于是,卷内大量鲜活、颇据价值的信息在整理人员题写案卷标题的过程中被无奈地过滤掉了。由此可见,案卷标题的概括性是以牺牲案卷标题的完整性和准确性为代价的。
2 电子档案文件级目录制作
目前,档案部门开展数字化后整理、深度挖掘档案信息的工作集中体现在电子档案的文件级目录的制作上。国家档案局在«数字档案馆建设指南»中就此专门提出要“全面推进馆藏数字档案基础数据库建设、优先建立馆藏档案的文件级目录数据库”。
开展档案数字化后整理、建立馆藏电子档案文件级数据库,目的在于有效地组织档案信息资源并方便查询和利用,在达到信息整序的同时实现对档案文件的智能控制。为此,需要特别注意下述两个方面的问题,真正做到按档案信息化的原则开展档案信息化。
(1) 要清醒认识到案卷级标题与文件级目录的根本区别
由于两者在主要工作内容、技术手段、工作目的等方面存在区别,因而两者所遵循的原则、标准规范、实施方案、操作流程也存在很大的差异。所以说不能用以往长期制作案卷目录时所形成的习惯性思维、眼光、标准来检视文件级目录,不能将文件级目录简单地视为案卷级目录的细化。二者的根本区别在于: 案卷级标题是对卷内文件信息集合的主观描述,对于查档者而言是对卷内内容的简介和导读;而文件级目录则是对单份文件本身所固有的各项信息特征的客观采集,可以全面、准确地深度揭示档案文件的内容,对于查档者而言是对文件内容的报道和导航。
文件自身固有的特征有责任者、收文者、时间、文种、载体形式、关键字、档号等项目,在著录时必须加以准确地捕捉和规范地标引。至于文件题名项则相对复杂: 如果文件原文上已经存在标题或摘要,可直接照录;如果文件原文上没有标题或摘要,则可简要拟写。简而言之,在电子档案文件级著录时,应奉行客观采集的宗旨,尽量避免主观的阐释或引申。
(2) 时刻不忘建立文件级档案数据库的初衷,践行以用户为中心的服务理念
在设计文件级档案检索系统时应秉持以用户为中心的理念,采用基于自然语言的智能化用户界面,以及符合查档者行为习惯的解决方案,在查档者特定的信息需求与数据库中相关的档案文件之间实现精确匹配,消除档案的检索盲点,目标是建成一种高效率的人性化检索体系,确保用户能有效获取信息。
作为自然语言的查询方式,优势在于用户无需学习,因为自然语言是每个人所熟悉的,并且具有丰富的表达能力来表达用户的信息需求。因此从检索语言上讲,绝大多数用户更倾向于用自然语言进行检索,那种受严格控制的专业词表检索方式很难得到用户的认可。在自然语言检索系统中,用户可以任意输入自由词汇,系统直接用这个词在数据库中进行检索,或者自动将这个词转换成规范的主题词或叙词后再进行检索。