数字档案信息的安全存储与保管
数字档案信息的安全保存非常困难。数字档案信息的不稳定性是举世公认的,其信息与原始载体的可分离性、系统依赖性、易更改、易复制、易传输的特性等,使以往许多行之有效的安全控制手段变得无能为力,给档案信息的安全存储与保管带来很大威胁。目前,对于数字档案信息的安全存储与保管还没有一个很好的解决方案。
1994年底,美国为研究数字档案信息的保存问题成立了一个数字信息存档特别工作小组。在这个小组1995年的工作报告中,首次从法律、经济、管理、技术的角度对数字档案信息的保存问题进行了全面论述。报告中探讨了建立一个国家档案体制来作为长期保存基础的可能性,但同时又指出这也不是万能药,维护信息安全的主要责任应该落在信息管理者的身上。报告强调:存档(archiving)不是简单地将字符串从一个旧的介质上拷贝到一个新的介质上,还需要保留解释和处理这些字符串的方法。其间信息移植工作有可能成为数字化档案信息保存的主要形式。另外,报告中还探讨了有关数字化档案信息保存的法律问题。总之,这份报告初次对数字档案信息保存做了最完整的研究。今天看来其中有些计算可能有点过时,但对候选方案的分析和一些选择的考虑还是很有价值的。
(一)数字档案信息的存储
数字档案信息能否保留下来取决于其介质的物理寿命,但当前的数字介质都无法维持很长的时间。像磁带一类的介质,最长的寿命是20年至30年;光盘一类的介质相对稳定一些,有人说其寿命可达30至50年,许多光盘厂家都说其寿命可达几十年甚至100年,但由于光盘出现的时间过短,迄今为止无法证实它们的寿命。在这种情况下, “除非有人特别留意,否则所有的数字信息将在几十年内丢失。” 档案工作者可以算是对数字信息的存储特别留意的人,但档案工作者无法参与到数字介质的生产当中去以提高其寿命。人们对数字信息存储载体关注的重点普遍在于设备是否廉价、访问速度是不是很高,而不是存储的长久性。
数字档案信息的另一个比较重要的问题就是存储空间的问题。数字档案信息的存储一般需要较大的存储空间。“一页ASCLL文本只包含几千个字符,但是1英寸见方的彩色图像扫描进来后需要超过1兆的空间。一个小时的数字化声音需要存一张光盘,其容量超过600兆字节,1分钟的视频数据在压缩之前有1千兆字节。”为了降低对存储空间的要求,几乎所有的图像、音频、视频等大容量数据对象都要进行压缩。压缩包括无损压缩和有损压缩。无损压缩是将冗余的信息去掉,当回放压缩文件时能够准确无误地恢复原始数据。有损压缩算法靠丢掉大量冗余信息来降低所占的空间,回放时不能完整地恢复原始数据,损失了多少信息由需要多高的压缩率决定。在绝大多数应用中丢失一些信息是可以接受的。用于图像的JPEG压缩和用于视频的MPEG压缩都是有损的方法,但它们提供的图像能完全满足人眼的要求。但在一些应用中压缩必须是无损的,在许多数字档案信息存储过程中,应尽量采用无损压缩。虽然压缩可以大幅度降低数据量,但所需存储空间依然很大。“压缩以后,一页单色扫描的文本的数据量超过50000字节。MPEG压缩方法将每秒20至30兆的数字视频降为每分钟10兆字节。” 数字档案信息的存储包括数百万计类似的压缩后的对象,所以对存储空间的需求比较大。
存储介质的评价取决于三个指标:存储成本、存取速度和安全可靠性。数字档案信息理想的存储介质是能够以较低的代价存储大量数据,同时支持快速存储和读取信息,并且经久耐用。国外数字图书馆选用存储介质的方法可以给数字档案信息的存储一些启示。目前,国外大规模数字图书馆对数字信息进行存储,都采用多级存储设备。其中典型的存储有三层:磁盘、光盘和磁带。
磁盘是现代计算机系统中标准的存储介质。磁盘自问世以来,容量不断提高,价格逐步下降,一般在存储成本方面能够满足档案机构的要求;磁盘追求存取的高速度,其存取速度对数字档案信息存储而言是足够的,其性能适合于一次读取大量数据的要求;磁盘的弱点是在安全可靠性方面达不到档案信息保管要求,其磁层易衰退,由于硬件故障或程序覆盖,磁盘上的数据易丢失。磁盘阵列在一定程度上提高了磁盘的可靠性。它是将若干个硬磁盘机按一定的要求组成一个快速、超大容量的存储系统,数据分布存储在各个磁盘上,用并行存取来提高存取速度,再加上采用冗余纠错技术来提高可靠性。这样,磁盘阵列基于磁盘而速度和可靠性高于磁盘。在多级存储设备中磁盘主要用于在线存储,保证数字档案信息可以在几分之一秒内读取。
光盘的特点是可以降低存储成本,它为存储大规模数据提供了廉价的方案。光盘安全可靠性相对稳定,其寿命也比较长。存取速度是光盘的弱点,使用光盘时必须先将其从光盘舱中移到读取头处,这个读取过程比较缓慢。在多级存储设备中光盘用于离线存储大规模数据。将多台光盘机组合在一起还可以构成光盘库、光盘塔和光盘阵列。这些容量巨大的设备对于数字档案信息的存储非常有用,它们能在一定程度上克服读取速度的问题,大量不常用的数据一旦需要就能尽快找到。
磁带最大的特点是经济、可靠,它是存储备份的首选介质。磁带的弱点是读取数据速度较慢、效率较低,另外磁带对保存环境要求较高,在保存中占用空间较大。在多级存储设备中磁带也用于离线存储,使用自动设备装载。有些人认为,随着磁盘阵列的应用越来越广泛,磁带的应用会逐渐减少乃至消失。但是,在多级存储设备中,考虑到存储应用的多样性、存储成本、信息的安全性和保密性等因素,磁带在数据备份中的作用越来越重要,它可以在无人操作下自动进行备份,甚至可以在工作状态下自动为数据库建立备份。磁带会继续为数字档案信息的存储提供必不可少的安全保护功能。
总之,现有的数字介质在数字档案信息存储方面各有优势和不足,在建设存储系统的时候,不应只考虑某个单一的技术,而应从整体需求出发,既要满足成本和存取速度的要求,又要确保数据的安全性。目前,在有些应用中还在架构集中式的多级存储网络,它由存储设备和网络设备组成,多台服务器通过局域网与磁盘阵列、磁带库等存储设备相连,基于客户/服务器方式为数字信息的网络存储提供解决方案。多级存储设备使得数字档案信息存储的层次结构变得清晰,从而建立了一个经济有效的存储构架,各种存储设备和技术可以互补,以便最有效地实现数字档案信息存储的高可靠性和高可用性。
(二)数字档案信息的保管
即使可以假设数字档案信息存储的问题能够得到有效解决,还会有新的问题接踵而至,那就是数字档案信息的保管问题。信息技术的飞速发展,致使人们借以利用数字信息的各种编码、协议、文件格式、压缩方法、加密解密方法、内容显示方法、计算运行方法等技术、软件乃至硬件迅速更迭。有鉴于这些更迭,如果电子文件等数字档案信息的协议、格式、元数据变得不可识别或不可处理,那么这些信息保存下来也将毫无用处。保管数字档案信息,维护其长期可用性在当前是存在一定的困难的,这当中要涉及一系列技术问题,包括文件格式、媒体转换以及随技术更新对保存的数字档案信息进行技术迁移等。
社会上已经有了许多在数字档案信息的保管过程中出现安全问题的实例。例如,在1989年柏林墙倒塌、东西德统一之时,东德的档案数据就出现了安全问题,其存储介质状况较差,数据格式没有记录。从那时起,一批德国档案学家开始尝试重构东德的档案记录。他们将从被破坏的、片断的、已保存了较长时间的数据源中恢复信息的过程称为数字考古学,同时称自己是数字考古学家。数字考古学家面临的第一个问题是从存储介质上得到信息数据。当时有些磁带状态极差,只能读一次。东德的许多数据是以苏联的计算机文件格式存储的,档案工作人员的计算机不支持这种格式。尽管得到了一些苏联计算机,仍有30%左右的数据无法读出。即使把数据拷贝到其他介质上,问题还远没有解决。其中很多数据通过没有说明的算法进行过压缩,如何解释这些没有说明的数据非常困难。当时的一个有利条件是档案工作者可以和一些构建数据库的人员进行交流,根据他们的建议解释了很多数据,使得这些数据得以继续保存。德国档案人员的领导Michael Wettengel在总结这个事件时感叹道:“计算机是用于处理信息的,它不适用于长期保存信息。”
一般来说,十年以前的计算机信息今天的软件已经很难处理。因此,对于数字档案信息的保管,除了保存原始数据,还应该保存理解信息类型、结构、格式的方法。这就是我国一些档案学者指出的要确保电子文件的可读性。目前,保管数字档案信息,维护其长期可用性的技术策略一般有刷新(refreshing)、移植(migration)和仿真(simulation)。
刷新是指将数字档案信息拷贝到新的介质上,保持其精确的位串。其实质即所谓的“备份”工作,以使数据本身不受存储介质质量恶化的影响。由于目前数字介质的寿命都比较短,在数字档案信息保管过程中必须定期对其进行刷新,每过几年将数据转移到新的存储介质上。
移植是指保持语义层的内容,而不是位串。由于计算机软硬件技术处于不断更新之中,当计算机运行的软硬件环境发生改变时,数字档案信息应当从过时系统中移到当前的软硬件环境中,使其保持可存取性与可读性。移植正是持续地将数字档案信息从旧的软硬件环境转换到新的计算环境中,它是一种随着技术变化定期改变信息格式的处理过程。移植的方法用于保证当前存储的数字档案信息总能被当前系统读取。前文所述的美国数字信息存档特别工作小组在其报告中第一次清楚地阐述了刷新与移植的区别,并建议将移植作为数字档案信息保管的基本技术。几十年来,移植是美国数据处理中的标准操作。在计算机系统发生变化时,数据从一台计算机移植到另一台计算机,从一个数据库移植到另一个数据库。移植的基本原则是数据的格式和结构可以改变,但是内容中蕴含的语义不变。
刷新和移植都需要定期进行。在许多商业档案信息的保管中,受利益驱使,有一批人被雇用来定期进行刷新和移植,他们同时负责保障数据安全和做数据备份,使得这些商业档案信息具有长期可用性。然而,目前很多数字档案信息的保管还没有人负责进行刷新和移植。从技术和资金上看,移植是可能的,关键问题出在人为制度上,即档案机构是否有计划实行刷新和移植的过程。要确保数字档案信息的长期可用性,档案机构必须有计划地执行刷新和移植的过程并将其纳入日常管理工作当中。
仿真是用一个计算机系统去模拟另一个计算机系统的应用环境,以保障数字档案信息的可利用性。仿真的思想在于对一个需要执行的程序给出其计算环境的详尽说明,以便将来可以建立一个仿真器来代替原来的计算环境。这能解决一部分问题,但在很多情况下是不现实的,因为即使是简单的计算环境要详细地描述出来也十分复杂。
目前,国际档案界就如何对数字档案信息进行长期保管正在展开积极的研究。如美国国家档案与文件署(NARA)正在开展一个ERA(Electronic Records Archives Program)项目,致力于建立保证电子文件等数字档案信息长期可利用性的完整体系结构。是更大的电子文件管理项目的一部分,其内容是研究如何根据海量数据要求和技术不断发展变化的要求,对联邦政府各种类型的电子文件进行保管和提供利用,NARA试图建立一个可升级、可共享的系统既可保护数字档案信息又能适应当前和未来的技术发展。 再如NARA与圣地亚哥超级计算中心(San Diego Supercomputer Center,简称)联合开展的PAERM(Persistent Archives and Electronic RecordsManagement)工程,致力于研究海量数字档案信息移植的技术平台机制。其将数字档案信息保管的目标定为数百年。这个工作要开发一个支持移植的技术平台,用以将数字档案信息移植到新的软件环境中。其研究内容不仅包括发展中的保管技术,还包括管理政策。该工程目前的焦点是创建一个包括一百万条左右信息的、具有长期可用性的电子邮件保管系统。再如,美国空间数据系统咨询委员会(Consultative Committee for Space,简称CCSDS)于1999年提出的开放档案信息系统参考模型(Reference Model for anOpen Archive Information System,简称OAIS)作为数字信息长期保管系统的基本构架日益得到广泛接受,目前ISO正在考虑将其作为标准促进档案机构与图书馆的共同发展。
尽管目前有了一些初步的研究并制定了一些标准,数字档案信息保管所面临的安全问题还很多。为了将来的“数字考古学家”能够找回今天档案信息的真实情况,当前的档案工作者必须做些有益的工作。一些简单的步骤有可能带来较大的改善。如按当前广泛采用的格式存储信息,以便将来当这种格式失效后,能够提高找到程序、完成格式转换的可能性。例如用于文本文件的TXT格式、用于图形文件的TIFF格式、用于视频文件的MPEG格式、用于网络信息的HTML格式和PDF格式等。采用这些格式在很多年后仍然有可能找到相应的阅读环境。此外档案保管过程中要将定期更新数据、制定备份策略、完善管理制度作为发展目标,以便有效保管数字档案信息。