档案信息数字化
数字化是指把一切信息都变成只用0和1这两个数字组成的、用不连续的数位表示的二进制代码。档案信息数字化是指为了使纸质档案、音像档案等以传统载体形式承载的档案信息能够通过计算机与网络进行管理和提供利用,而利用高速扫描技术、数据压缩技术等信息处理手段,将其进行转换处理,形成数字信息,并以数字代码方式存储起来。这些数字信息可以通过计算机进行操作处理,通过网络进行传输。纸质档案、音像档案,以及甲骨、金石、简牍、绢帛、泥板、纸草、蜡版、羊皮纸等各种载体的档案都可以以文本文件格式、图像文件格式、音频文件格式或视频文件格式转换成数字信息。
(一)档案信息数字化的必要性
数字化是现代信息技术首要的技术特性,比特被人们比作“信息DNA” ,用它可以表示所有的信息。档案信息数字化是档案信息化建设的基础和必要条件。传统载体承载的档案信息必须经过数字化处理,也只有经过数字化处理,方能通过计算机进行存储和操作,并通过网络进行发布,以使档案信息经济、快速地传播,高速、高效地被利用者利用,更大限度地满足社会公众对档案信息的利用需求,从而提高管理效率,提高服务效益。
档案信息数字化同时可以加强对档案原件的保护。许多档案,特别是一些历史档案非常珍贵,有的甚至是稀世珍宝,价值连城。这些档案需要精心保管,有些档案馆将其藏之特藏室,享受特殊待遇。“比如中国第一历史档案馆的舆图库,保管有包括天文、地理、寺庙、行宫等13大类1万多件的舆图档案,有明代的海防图、清代的疆域图、世界地图等等,有宫内内务府和军机处绘制的,也有外国传教士绘制的。中国第一历史档案馆,一直将这些珍贵的档案实行单独保管。”这些档案若以原件提供利用,极易使其遭受破坏,因而只能以复制件提供利用。而数字化技术可以真实地再现原始档案材料的风貌,在各种复制方式中具有无可比拟的优势。将档案原件进行数字化处理后,即可将其妥善地保存起来。经过数字化处理的档案信息易于复制,便于提供利用服务,能为利用者提供与原件具有同等功效但更为便捷的利用方式。
(二)档案信息数字化的实现
对于不同类型与层次的档案信息,数字化实现的方法有所区别。
对档案内容信息的数字化,包括对档案内容的原生信息进行数字化和对档案内容的派生信息进行数字化。对档案内容原生信息的数字化,即对档案全文进行数字化,是数字化工作的主体部分。档案信息化建设需要尽可能多的档案全文信息,以真正发挥网络的功能。档案内容信息的数字化,可以依靠手工录入,也可以对档案原件进行扫描而后通过光学字符识别技术(OCR)进行识别,还可以通过缩微胶片转换。这类信息多以文本方式存储,以节省存储空间,便于进行全文检索。对档案目录等档案内容派生信息的数字化,主要依靠手工录入。手工录入方法有键盘录入、手写识别、声音识别等。这类档案信息数字化后一般是存储在数据库中,其数字化的实质是向档案信息数据库中输入数据。
对档案形式信息的数字化,有二种情况:一种是对档案外在形式和特征进行描述,生成派生信息,然后进行数字化;第二种情况是,对于多数历史档案和珍贵档案,数字化过程中可能要求其外在形式与内容紧密结合,保持其原汁原味的面貌。在此情况下,可对档案原件进行扫描,或用数码相机进行数字照相以获取高分辨率的真彩色图像。扫描或照相后以图像文件格式进行存储,这样可以原原本本地再现档案的原始形态。对于声音、影像等形式的多媒体档案,要通过专门处理设备和相应的计算机处理软件将其从模拟信号转换为数字信号,以音频文件、视频文件格式进行存储。
对数字信息进行存储之后,还要对其进行相应的后期整理,以加强档案信息数字化的质量控制,确保数字档案信息的可用性。后期整理的内容一是进行质量检查。如对通过扫描得来的图像进行检查,查看其是否保持了档案的原貌,字迹是否清楚不失真,亮度是否适当,有无错扫、漏扫,图像质量有问题的要确定是否重新扫描等等;二是进行数据整理。对作为文件存储的数字档案信息要准确标示文件名称,将存储文件与档案信息数据库中相关记录之间建立连接。这是档案信息管理系统及检索系统的前处理内容之一,是直接关系到管理与利用的速度和效率的重要环节。数据整理是一个比较繁琐的工作,但就工作质量要求而言又相当之高。为了更好地完成这项工作,可以开发相应的计算机系统以减轻进行数字化处理的工作人员的劳动强度,确保数字化的质量。解放军档案馆在开发《军队档案馆文献信息管理网络系统》的过程中,就将图像扫描做成一个独立的应用程序。该程序在完成扫描的同时,按照军队文书档案的整理技术规范,自动为文件命名并与数据库内容建立连接。这一程序的应用,为档案原件扫描后形成《军队档案馆文献信息管理网络系统》的可用数据提供了一条相对方便、快捷的途径,为前处理工作提供了一种解决方案;三是对存储载体进行检查。对作为存储载体的磁盘或光盘应进行质量检测,并确认无病毒,确保文件内容的完整和准确;四是对数字档案信息进行备份。无论是以数据库方式存储还是以文件方式存储,都要做到一式两份,以确保档案信息安全,避免文件遭破坏后使所做的工作付之东流。
(三)档案信息数字化的选择性与阶段性
档案信息数字化是一项非常繁琐且工作量巨大的工作。人类有史以来所积累的档案文献浩瀚无边,据统计,全国3522个档案馆拥有档案文件1.4亿卷。数字化可能意味着只要具备使用价值的档案都要重新加工一遍,任务十分艰巨。据统计分析,要对大英图书馆的全部馆藏进行数字化,大约需要全体2500名员工工作400年。笔者没有搜集到档案界所做的类似的分析预测。对一些馆藏量相对较大、馆藏结构较复杂的档案馆来说,在信息化建设过程中必须在坚持日常工作的同时完成数字化处理,乐观的估计也可能需要长达几十年的时间。然而网络环境的飞速发展又敦促我们必须在尽可能短的时间内完成数字化工作。所以,当前在我国档案信息数字化过程中出现了一些现象:比如有一哄而上搞数字化的趋势;再比如为了达标人为规定一个档案馆进行数字化处理的档案的比率;还有的档案馆想在短期内将全部档案数字化;……。这些都是档案信息数字化过程中必须走出的误区。
要正确对待和把握住档案信息数字化工作就要注意其选择性与阶段性。
所谓的选择性就是要衡量成本与效益对数字化的适用范围进行选择。论证和确定是否有必要将全部馆藏进行数字化、哪些馆藏档案应该数字化、哪些不需要数字化。要进行数字化的档案信息应该是价值高、有序、规范和具有特色的。首先是利用频率较高、需求量较大的经济、科学、技术和文化等各类档案;其次是急需得到抢救性保护的珍贵档案。前者的意义在于可以充分发挥网络的优势,避免利用者亲自到档案机构查阅的辛苦,减轻档案机构接待的投入;后者的意义在于实现了珍贵档案的“数字化生存”,使其保存和提供利用得以有机地结合。
以美国马里兰州档案馆对缩微与数字化进行选择为例。其观点是档案缩微是为了进行保护,档案信息数字化是为了提供利用。该馆在选择档案进行缩微或数字化过程中持比较保守的态度。馆藏档案拍成缩微胶片的不到5%。缩微的依据首先是珍稀档案和个人档案中易损的原稿档案;其次是地图等大众化档案,由于利用者众多,缩微后可节省人力、物力、财力。由于其缩微费用高达每立方英尺75美元,该馆认为将馆藏档案全部进行缩微的花费还不如再盖个库房。而对待档案信息数字化问题,该馆认为本馆馆藏全部数字化上网发布则数据存储量过大,所需硬件费用过高。该馆传统载体的档案内容只有千分之一进行了数字化并上网发布。这些档案信息内容主要是州法律或地产记录。选择的依据有几个方面:从经济角度考虑,由于经费预算有限,进行数字化的档案信息必须有经费来源。如地产记录,是州法院付钱委托馆里进行数字化,而利用者在州法院利用时向州法院付钱;从利用者角度考虑,内容多为与利用者利益相关的档案,上网后方便利用者使用,减少馆内接待的压力;从时间角度考虑,全部档案信息数字化花费的时间太长。再如美国国家广播档案馆也是如此。该馆数字化的选择之道是利用馆藏优势,积极争取馆藏数字化的课题,应约进行数字化。课题委托人如某公司对馆内某些档案有兴趣,就可以提出数字化要求并提供经费。馆内应要求进行数字化处理。同时以合约的形式明确这些数字化档案信息除提供给委托人外也可以在本馆的网站上发布。“借鸡生蛋”,一举两得。
所谓的阶段性就是根据基础条件对数字化的实现过程进行阶段性划分,决定哪些档案信息应该优先数字化,哪些档案信息在下一阶段再数字化,从而确定档案信息数字化的实现步骤,做到科学安排、有序进行。在数字化的最初阶段,可以先对档案目录信息进行数字化并上网发布。档案目录信息覆盖面大,能较好地反映馆藏档案的全貌。它可以为网络利用者检索提供方便,明确所需档案信息的所属机构,然后再到相应的机构去利用档案。省去利用者来往于不同档案机构查找的时间。这个阶段的目标是力求档案目录信息的详尽具体,以方便利用者通过目录也可获得大量信息。下一阶段,可以对重要档案的内容摘要进行数字化并上网发布。有时利用者只看档案目录还无法确定是否符合其利用要求,还要进一步依据档案内容摘要确定。接下来是对档案全文信息的数字化,可以先将特色档案信息数字化,而后依据利用率的高低再逐步数字化。只有档案全文信息上网才能真正达到信息共享的最终目的。档案信息数字化是一个长期的过程,但也是一个“前人栽树,后人乘凉”的过程。目前我国档案信息数字化进程还处在目录信息数字化的阶段,有一些档案机构开始了全文信息数字化的初期阶段,也就是说正处于比较艰难的栽树阶段。
档案信息数字化是档案事业发展史上少有的发展过程。这项工作有挑战、有压力、有困难,但同时也是一次机遇,是一次登攀,是一场鼓舞人心的变革。一旦确定了数字化的方向,就必须不畏艰难、发扬愚公移山的精神,使各类档案信息从相对封闭的档案库房走上新世纪的信息高速公路!