纸质档案的数字化
1 数字化处理方式的选择
将纸质档案转换成计算机可处理的数字格式通常有两种做法:一是将纸质档案扫描并以图像方式存储(或进行OCR字符识别变成文本文件),二是利用已有的缩微胶片影像进行数字化转换。
1.直接扫描图像法
采用扫描仪对档案原件进行光学扫描,然后将光学图像传送到光电转换器中变为模拟电信号,又将模拟电信号转变为数字电信号,最后通过计算机接口送至计算机中。此外,采用数码相机也可以生成高质量的小文件的图像,但由于其分辨率不足,不能保证很小的特征也能得以忠实地记录。
将纸质档案扫描后进行字符识别变成文本文件,优点是识别处理后的文件以文本形式存储,存储空间小,能够实现全文检索。但却失去了档案原件的视觉效果,特别是手写字迹的识别目前仍然不过关的,校对工作量较大,费用也比较高。而扫描后直接以图形文件进行存储的方式,调阅时见到的是原件的“克隆”样本,看得到诸如印章、签字、批注等信息,给利用者比较直观的视觉感受。加之避免了大量的校对工作,费用也比较低。
2.缩微影像转化法
即采用缩微胶卷扫描仪将胶卷、单片缩影胶片和打孔卡转换成数字形式。从缩微胶卷进行数字化的主要优点是:没有尺寸和形状的限制,任何文件都可以先拍照后扫描,比如报纸因版面过大而无法用普通扫描仪数字化,必须通过过渡介质如缩微拍照或高分辨率的数码相机实现转换;缩微胶卷仍然可以保存成为数字档案的备份;当工作过程被标准化后转换速度快;已有的缩微胶卷无需再制作,节约了成本。
从缩微胶卷进行数字化,除了专用设备较为昂贵外还有以下缺点:数字图像已经是第二或第三代,虽然图像可以强化但需要付出代价;高反差胶片已经去掉了一些原始信息,且色调再现能力差;一些胶片状况差,包括划痕、装订线阴影、叠接等;尺寸不同的扫描对象和重要的编目问题打乱了规定的数字化程序;扫描仪的分辨率不足以捕捉所有有价值的细节。
档案部门近年的工作实践也表明,对纸质档案进行直接扫描的方式比较经济和快捷。因此,纸质档案的数字化一般应采取扫描的方法将其变成电子图像文件直接存储,再配合标引信息数据库的建立,实现档案资料电子影像的快速检索利用。缩微胶片影像间接转换的方法因设备投入较大而只能作为辅助性手段,当然,有些情况下,直接扫描和间接转换这两种方法也可以同时配合使用,特别是在已经拥有缩微复制品并且具备转换设备的情况下,通过缩微胶卷这一过渡介质间接获得数字化图像比较适用。
2 数字化输入设备的选择
档案信息数字化可采用扫描仪、数码相机、数字摄像机等录入设备。各级档案部门目前投入使用的档案数字化加工系统大多采用扫描仪作为数字信息采集设备。纸质档案数字化所用扫描仪的选择,取决于所处理档案的数量、形态和完成任务所计划的时间等。
1.扫描仪的种类
扫描仪通常分为高速扫描仪和平板扫描仪。高速扫描仪一般处理速度可达每分钟20-120页,还有单面扫、双面扫不同类型可供选择,其特点是扫描速度快,主要缺点是无法处理大幅面档案,档案纸张状况较差时易损坏原件,特别是珍贵档案也不太适合选用该类设备进行加工处理。
平板扫描仪主要用于A3、A4幅面档案的扫描,用途广,功能强,种类多,价格低,但处理速度较慢。因档案原件的幅面大小、纸张质量通常是各不相同,千变万化的,在具体选购时可以平板扫描仪为主,需要时适当酌配少量高速扫描仪。
选择平板扫描仪的时候首先要注意扫描仪的最大幅面。一般分A4、A4加长幅、A3、A1、A0几种,以A4最为普遍。由于档案馆扫描对象多为普通文档及少数相片、图片类,A4及A4加长幅已可以满足日常所需,若原稿幅面较大,也可以通过分块扫描后再拼接的方法来实现扫描。如果扫描大幅面图纸较多,或资金雄厚,也不妨考虑其它几种。
扫描仪按颜色还可以分为黑白和彩色扫描仪。如果仅做文字输入,用黑白机即可,但由于目前黑白机和彩色机的价格已很接近,况且某些档案原件采用彩色标注(如红铅笔批注、发文单位等),所以一般情况下都以购买彩色扫描仪为主。
2.扫描仪性能指标
(1)扫描速度
扫描速度是表示扫描快慢的指标。这项指标对档案馆颇为重要,因为档案馆藏数量庞大,高速扫描有利于提高工作效率,缩短档案信息数字化的时间。
(2)扫描分辨率
这是决定图像质量的关键因素。分辨率选择应根据用途、原件字体大小来决定。一般须兼顾显示、打印或识别要求,适当考虑存储空间效率,过高的分辨率不但无法显现效果,会放大原件噪音,而且对存储空间是一种浪费。
分辨率是表示扫描仪精度的重要指标,反映了扫描仪对图像细节的表现能力。其中,光学分辨率是扫描仪的光学系统可以采集的实际信息量,即扫描仪的感光元件(CCD)的分辨率;最大分辨率是通过处理器或软件算法可以捕获的信息量。光学分辨率是应当首先考虑的指标,因为它不仅决定了扫描仪的价格档次,还是扫描仪对原始图像感知能力的具体表示。当前市场上扫描仪的光学分辨率主要有300*600dpi、600*1200 dpi、1000*1200 dpi等类型。
选择扫描仪绝不是分辨率越高越好,扫描精度提高一倍后,其扫描速度会大大降低,而生成的图像文件大小则会呈4倍的增长。需要指出的是,扫描分辨率和输出设备(主要是打印机)的分辨率之间是有匹配关系的,如果扫描分辨率超过一定数值,再清晰的图像也不可能打印出来,仅仅是多占用了磁盘空间,毫无价值。事实上,档案馆选择300*600 dpi分辨率的扫描仪即足以应付文字输入。
(3)色彩分辨率
色彩分辨率是表示扫描仪分辨彩色或灰度细腻程度的指标。理论上,色彩位数越多,颜色越逼真。目前市场上扫描仪的色彩位数一般有24位、30位、36位、48位等几个档次。对于档案馆来说,因为一般的文稿或图片本身质量就不高,一般 24位以上的扫描仪就够用了。
(4)动态密度范围
表示扫描仪所能探测到的最淡颜色和最深颜色间的差值。范围越宽表示扫描仪可捕获到的可视细节越多,即可再现的色彩细微变化能力越强。该指标对高性能专业扫描仪十分重要,但对于档案馆选择,并无大碍。
(5)灰度级
表示灰度图像的亮度层次范围,级数多说明扫描仪图像的亮度范围大,层次丰富。目前多数扫描仪灰度为1024级。
(6)扫描仪的接口方式
主要分EPP、USB、SCSI三种。即打印机端口,EPP其最大特点是方便,对计算机要求低,但扫描质量较差。USB接口速度较快,安装方便,可以带电拔插。随着USB应用的日益广泛, USB接口的扫描仪已成为发展趋势。SCSI扫描仪安装时需要在计算机中安装一块接口卡,安装较复杂,价格较高,但速度快,扫描稳定,扫描时占用系统资源少。其实,无论EPP、USB或SCSI接口,都不是决定扫描仪扫描速度的主要因素,扫描速度与扫描仪本身性能息息相关,因而使用任一种接口方式,扫描速度上并无太大差别,但从接口上看,最适宜档案馆使用的是USB接口,速度与方便兼顾,当然,如果已购置了SCSI接口卡,则使用SCSI接口的扫描仪更佳。
除此而外,还有一些应当考虑的因素,比如易用性、送纸方式等这里就不再详细叙述了。
3 扫描技术参数的确定
为了保证扫描图像的质量,必须认真选定图像扫描的有关技术指标与存储格式。与扫描图像质量有关的指标有很多,纸质档案的扫描中主要应考虑以下两项参数:
1.扫描分辨率
分辨率越高,则扫描出的图像越清晰,但所占的资源也相应越多。纸质档案的扫描一般可选200-300dpi。
2.扫描模式
即选择灰度扫描还是黑白二值扫描。对于一般的文字型档案文件,可以采用黑白二值扫描;需要表现档案原件细节的,则可以采取灰度扫描。
3.压缩存储格式
纸质档案扫描信息的压缩存储格式主要有TIFF、BMP、JPEG、AWD等几种。根据档案部门的实际应用情况,一般选择TIFF格式或JPEG格式。BMP格式是标准的位图格式,对复杂的摄影图片的表现力不如GIF和JPEG, BMP格式的主要缺点是依赖Windows,对其它软件支持不够。AWD格式使用Imaging(通过Windows程序-附件-映象打开)进行文件多页扫描,每个文档可含有多个页面,文件占用空间较小,只有黑白形式。
(1)TIFF格式
TIFF格式可以存储多幅图像,其中以未压缩形式存储的TIFF文件可通过OCR软件识别转换为可编辑的文本。它的结构复杂,用一个程序读出所有的TIFF几乎是不可能的。因此在使用TIFF格式时,必须注意其版本、压缩格式。
(2)JPEG格式
JPEG是一个通用的静态图像压缩编码标准,可以用不同的压缩比例对这种文件格式压缩,属于有损压缩。目前这种格式的图像在网络应用中十分广泛,扫描彩色照片或公文也可采用此种格式,但不能用于OCR识别和多页形式。
根据目前档案部门的实践,通常以TIFF或JPEG格式存储。在满足图像清晰度的前提下,一般以黑白或灰度图像格式存储,以减少存储空间。另外,如要考虑今后OCR需要,可以选用以TIFF非压缩格式存储。
4 数字化处理步骤
纸质档案的扫描加工一般采用流水线作业形式进行,而档案拆卷后以散张的形式存在,这就要求操作者要严格按照每道工序的要求,仔细处理和操作,防止档案的散失。一般说来,应当按照整理、扫描、校对、存储等几道工序对纸质档案进行数字化处理。
(1)整理
按扫描计划和工作进程,每次以一定卷数为一批次安排到人,检查完整性,无误后在扫描备考表上签字并向整理者移交。整理的主要内容和要求:一是检查文件的完整性;二是对每份文件正文进行拆金属装订,因为批量扫描的需要而要求档案以散张的形式存在;三是对文件进行打页号。按有字的一面算一页的方式进行计页,因为这样可以有效地防止档案的丢失及在处理过程中档案位置顺序的排错,并且这样在校对时也比较方便;四是登记幅面大于A4纸张破损和纸质很差的页,以便对幅面大于A4的页采用A3幅面的平板扫描仪进行扫描,对纸张破损和纸质很差的页采用平板扫描仪进行扫描。
(2)扫描
扫描文件采用TIFF格式,用G4的最大压缩率,文件名称由“档号十三位顺序号”组成,采用100dpi分辨率,黑白模式扫描,一般情况下选扫描区域大小为A4,对比度、明亮度均为192。
(3)校对
校对者用图像处理软件对扫描图像进行校对,并进行纠斜、去黑边、增亮等相应处理,对需重扫或缺扫页进行登记,以方便重扫和补扫。
(4)存储
与此同时,对档案原件要进行整理、重新装订,检查无误后予以归还,防止档案散失。
5 数字化存储设备的选择
大量档案原文的存储管理离不开海量存储技术。光盘存储系统是目前海量存储的基本手段。完整的光盘存储系统包括光盘盘片、相应的光盘驱动器及其光盘软件。
光盘以其存放数据类型及其数据格式的不同而分不同类别,从其用途和性能分为3类:只读型光盘,如CD-ROM、VCD等;一次写入多次读出的光盘,如CD-R和WORM;可重复读写光盘,如磁光投MO等。数字化档案信息通常只需存入一次,改动的可能性较小(处于相对活跃期的科技档案除外),因而,适用于后两类光盘,尤其是第二类光盘。
与光盘相对应,光盘机也有只读型、写一次型、可重写型三类。目前,流行的光盘机主要有只读光盘存储器CD-ROM、可写CD驱动器(也称CD刻录机)、可擦写光盘驱动器、DVD机等。实现档案全文数据的网络共享,多采用超大容量的光盘塔与光盘库为存储设备。一个光盘塔可同时装载几十片甚至上百片CD盘片,容量在几十GB 以上。光盘塔内有若干个刻录驱动器,读写时光盘塔能自动将要读写的CD盘片放入刻录驱动器中。光盘库是MO技术的扩展,一个光盘库可同时装载十几张或几十张MO盘片。光盘库中有若干个MO驱动器;读写时光盘库能自动地将要读写的盘片放入MO驱动器中。光盘库存储量很大,都在几十GB以上。以 50GB的光盘库为例,可存储50万到500万张A4文档原件。光盘塔、光盘库的类型十分丰富,各项性能指标差别较大,因此,必须谨慎选择适合档案信息管理的光盘存储系统。以下是选择档案信息用光盘存储系统的考虑因素。
(1)支持并发访问用户的数量
在选择光盘系统时通常存在一个误区,即将光盘系统的价格和存储容量作为首要考虑因素。其实,选择档案光盘系统最关键的因素应当是其可同时支持的在线并发访问用户的数量。网上档案全文库最基本的功能是在全网范围内提供快捷便利的档案信息利用,在网络中同时有20-50名用户并发访问光盘库是常见的,因此对众多并发访问的支持是有效实现档案于信息库利用价值的基本条件。否则,无论存储容量多大,都可能因光盘系统不能有效支持众多并发用户而彻底崩溃,进而导致整个网络系统的瘫痪。
(2)安全性及其安全管理体系
档案信息不得篡改,因此确保其存储安全十分重要。对于镜像存放在光盘存储系统中的重要档案信息,系统管理员和合法用户在任何情况下均不得对其数据做任何修改。然而,某些品牌的光盘服务器却因硬件和软件设计的失误,导致任何用户均可对存储镜像的光盘数据做任意篡改,这将造成严重后果。由于光盘存储系统的生产商和代理商对此类缺憾有意无意地隐瞒,很多单位未能意识到问题的严重性。因此,档案馆在选择档案光盘系统时安全性是必须考虑的重要因素。此外,在系统管理体系方面,档案光盘存储系统能否与NTDomain等网络管理界面无缝集成,支持Passthrough功能,是否具有自动日志功能,可自动记录所有用户的访问信息,包括使用账号、时间、访问方式、网络地址和访问状态等,都是选择时必须考虑的安全因素。目前,市场上部分品牌的光盘塔、光盘服务器的系统管理员可轻松发现恶意用户对光盘塔的攻击和越权访问行为,做到及时给予制止和警告。
(3)对各种网络操作系统和网络结构的支持
网络环境中,网络操作系统平台和网络结构千变万化,网络中服务器和客户机多种多样,这就要求档案光盘存储系统能够适应各种复杂的网络环境,目前国内市场上的光盘塔和光盘服务器都能支持多操作系统混合的网络环境。
(4)存储容量
档案馆、档案室必须根据本单位数字化档案的数量及其增长情况来选定光盘塔、光盘库可存储光盘的数量及其总的存储容量。存放档案信息的光盘数量每年在不断增加,因此选择档案光盘存储系统时应考虑系统是否允许采取自行添加硬盘的方式来对光盘塔和光盘服务器进行扩容。部分光盘存储系统出厂时有预置存储容量的机型供选择。
6 缩微影像转换技术应用
对于已经进行过缩微复制的纸质档案,如果具备条件,没有必要像前面介绍的那样再次调用档案原件进行直接扫描,而可以采用专用设备对缩微胶片上的影像进行数字化转换处理,达到同样的目的。缩微影像转换技术的应用,包括对缩微胶片进行扫描,把缩微模拟影像转换成数字影像,进行存储、还原和检索输出等工作。
运用缩微数字影像系统对档案缩微品进行扫描,把模拟影像转换成数字影像是该技术中的一项基础性工作。在从事这项工作中应注意以下几个问题:
1.缩微胶片扫描设备的选择
目前,缩微影像转换成数字影像的技术日趋成熟,缩微胶片数字扫描系统,既要考虑先进性,又要选择适用性,同时还要考虑性能价格比。
目前,市场上的缩微胶片扫描系统主要有:英国的“优胜”4001和4100型,日本佳能的MS500型和日本的美能达的MS3000型等。比如,美能达的MS3000型缩微胶片扫描仪,不仅能够把缩微模拟影像转换成数字影像,还能作为缩微数字影像的还原设备使用。
2.扫描技术参数的选择
扫描分辨率的选择。根据相关单位的实验,扫描的分辨率越高获取的信息技术越大,对原影像的细节描述就越好,对于层次比较丰富的影像来说,扫描的分辨率越高,得到的数字影像就越丰富。美能达MS3000型缩微数字影像系统有200dpi、300dpi和400dpi三种分辨率。鉴于目前档案馆保存的档案多是以文字为主要内容的,其影像层次比较少,以黑白两级为主,因此对以文字为主的档案缩微胶片,选择200dpi作为扫描的分辨率为宜。
扫描的亮度的选择。扫描亮度值以45-60为最佳。扫描亮度值大于60时,底灰随亮度的增加而增大,无用信息增加,数字影像占用空间增大,不利于数字影像的存储、还原、数据处理和网络传递。扫描亮度值小于45时,数字影像的占用空间随亮度减弱而减少,影像变浅,原影像信息减弱或丢失。扫描亮度值在50-60之间,数字影像的占用空间适宜,原缩微影像信息基本不丢失,影像没有底灰。因此,50-60的扫描亮度值是档案缩微胶片转换成缩微数字影像的最佳曝光亮度。
扫描对比度的选择。扫描对比度数值以80-90为最佳。扫描时对比度数值小,数字影像的反差就小,出现底灰多,数字影像占用空间大,影像清晰度受到影响。扫描时对比度数值高,数字影像的反差就大,特别是一些铅笔或红、蓝铅笔字,通过提高对比度可以加强信息的获取量,使数字影像更加清晰,同时数字影像占用空间减少。扫描时对比度数值太高,也不利于档案缩微模拟影像转换成数字影像,原因在于过高的对比度,不但不能通过扫描加强影像的信息量,反而使其信息量失真或丢失。
3.校对工作
对扫描后的缩微影像要进行逐页校对,然后把缩微数字影像按件与计算机数据目录挂接,把缩微数字影像建立起一个完整的数字化档案全宗。
缩微数字影像的存储与输出(还原),与纸质档案数字化图像的存储和输出方式、程序等基本相同,此处不再赘述。