深圳市档案局 李国庆
2002年12月8日,国家档案局在深圳召开了“档案信息化建设现场演示会”,深圳市档案局馆向与会代表成功地演示了深圳数字档案馆应用系统的各项主要功能,这标志着“深圳数字档案馆系统工程建设”项目已经取得了阶段性成果:该项目课题组历经两年的努力,对数字档案馆的基本理论、框架结构、基础设施、应用技术和实现模式的研究、开发,都取得了长足的进展和可喜的成就。
一、对“数字档案馆”的认识
数字档案馆是近年来档案界提出的新概念,暂时还没有取得统一的认识和提法。综合目前的各种提法,较为完整的表述应该是:数字档案馆是建立在现代信息技术普遍应用基础上,利用数字化手段,以综合档案信息资源为处理核心,对数字档案信息资源进行收集、管理,通过高速宽带通信网络设施相连接和提供利用,实现档案信息资源共享的超大规模、分布式数字信息系统。从目前国内外有关情况和发展趋势看,有各种类型的数字档案馆??综合性的、行业的、专题的、甚至个人的,本文所论述的是国家综合性数字档案馆。
以“有序的信息空间和开放的信息环境”为特征的完整意义上的数字档案馆,不是封闭的档案馆信息网络,而是包含在办公自动化系统、计算机辅助设计和管理系统、公共信息数据管理系统等更为广阔的大系统之中,由分布式档案信息资源构成的具有强大服务功能的跨机构、跨地域的信息系统。数字档案馆建设,应该纳入各地政府信息化建设总体规划,成为政府信息系统的一个重要组成部分。
数字档案馆的含义有广义和狭义之分。广义数字档案馆是指存储和利用档案信息资源的信息空间,是一个由众多档案资源库群、档案信息资源处理中心、档案用户群构成的数字档案馆群体。狭义数字档案馆是指其中的个体档案馆,其含义除了馆藏档案数字化工作外,还涉及档案信息的采集、整理、存储、检索、传递、保管、保护、利用、鉴定、统计等全过程,代表的是一种信息环境和基础设施的构建,包括软、硬件系统的设计和组织实体的建立。
二、深圳数字档案馆的五大建设任务
基于上述理论认识,深圳数字档案馆在建设中确定了五大任务:软硬件基础设施建设、应用系统开发、数字信息资源建设、标准规范体系建设、人才队伍建设。
(一)基础设施建设
深圳数字档案馆的基础设施建设主要包括网络环境、硬件环境和系统软件建设三部分。根据三种不同的服务对象和范围,网络环境分为档案馆内部网、与政府连接的政务网、与互联网连接的公众网三个层次,并实行三网物理隔离。根据数字档案馆的功能需要,数字档案馆的基础硬件设施主要包括网络设备、服务器、档案数字化加工等设备以及其他支撑设备等,并要建设大容量的分布式资源数据库、大规模并发用户的访问服务管理系统。在进行数字档案馆系统软件建设,尤其是在选择操作系统的过程中,遵循了通用、实用、可靠、节省、成熟、方便维护等原则,选择了目前世界上流行的windows、UNIX、MNUX等操作系统。
(二)应用系统开发
深圳数字档案馆应用系统的建设目标是建成一个可扩展的网络应用系统、其功能涵盖档案的数字化加工、电子档案信息的采集、处理、存储、归档、组织、发布、利用及数字资源管理全过程。所采用的许多关键技术,属于当前计算机技术、信息技术、人工智能领域中最先进、最有发展前途的前沿科学,例如:大量并发查询、数据仓库、数据挖掘、海量数据存储、网络安全、图象分类、智能检索、人工语言向自然语言转换、视频点播、虚拟现实技术等。这些技术在数字档案馆工程项目中的应用,将大大提高数字档案馆系统的技术含量,确保其技术的先进性。应用系统的构成及其功能将在下一个论题具体阐述。
(三)数字信息资源建设
深圳数字档案馆数字信息资源建设的定位是分布式文件、档案数字资源构成的具有强大服务功能的跨机构、跨地域的信息系统。这个系统突破了传统“档案信息”的内涵、建立了广义“档案信息”概念,其采集、存储、管理的信息数据构成形式包括:文本文件、图形文件、图像文件、影像文件、声音文件及其他文件(如命令文件,亦称计算机程序)等。其来源和采集范围包括:传统档案馆的馆藏、立档单位的档案文件材料、有档案性质的行业及专题信息资源库和互连网上其它具有档案价值的信息等。通过对各类信息的整合,形成一个社会综合信息资源库,以满足社会各方面对档案信息资源的需要。
(四)标准规范体系建设
深圳数字档案馆在建设过程中,采用、研制、建立了一套相关的行政法规、业务规范、技术标准和管理规则。深圳数字档案馆的标准规范体系包括管理业务、技术二个层面。管理性标准规范包括计算机安全法规与标准,数字档案馆工作人员、用户及设备管理规范,利用管理规定,以及数字档案馆信息资源合法性的确认等;业务性标准规范包括术语标准以及相关的电子文件和电子档案管理的标准、规范;技术性标准规范包括数字档案馆软硬件基础设施建设技术标准,软件系统工作平台技术标准,数据存储压缩格式规范,数据长期保存格式规范,数据加密算法规范,网络数据传输规范和数字水印标准等。
(五)人才队伍建设
深圳数字档案馆的人才队伍建设贯彻以管理型人才为基础,以复合型人才为重点的指导思想。根据数字档案馆业务工作的划分,所需人才的类型有:档案采集、处理与数据库加工人才;信息技术及计算机系统和网络设计与开发人才;档案信息分析、研究与咨询人才;数字档案馆理论与方法研究人才;数字档案馆系统运营与服务的管理人才。对人才队伍业务素质的要求是具有较全面的知识结构以及敏锐的信息意识、良好的信息道德、较强的信息能力,以适应数字档案馆的建设和正常运行的需要。
三、深圳数字档案馆的阶段性成果
经过两年的努力,深圳数字档案馆建设的上述各项任务均取得了阶段性成果。主要表现是:
1、在《深圳数字档案馆总体规划书》指导下,完成了《第一期工程需求报告》、《工程实施方案》、《数字档案馆应用需求分析报告》等综合性、指导性文件,并付诸实施。
2、完成了《电子邮件公文归档与管理规则》(行业标准项目)、《电子文件元数据标准》、《电子文件生命周期表》、《通用电子文件保管期限表》等一批标准、规范的起草工作。
3、应用系统的研制开发已经基本成型,正在进一步完善,其中数字化加工处理软件已经投入运行。
4、已经建成档案数字化加工生产线,日加工能力不断提高,完成了相当数量的馆藏纸质档案、照片档案的数字化,同时为部分立档单位进行档案数字化加工,建立了一定规模的数据库。
5、深圳市档案馆新馆舍(数字档案馆所在地)正在进行网络布点、布线,有关设备正分批购置,陆续到位。数字档案馆的具体运作机构,已由市编办正式下文成立予以定编,为数字档案馆的运行打下了良好基础。
四、深圳数字档案馆应用系统的四大功能模块
根据数字档案馆的总体要求,按照档案信息的数据流向,深圳数字档案馆的应用系统共包括:电子档案信息收集、电子档案信息管理、电子档案信息利用、电子档案信息安全维护四个功能模块。
(一)电子档案信息收集模块。负责各类电子档案信息的采集并将其输入系统。根据数字档案馆数字信息资源的来源,在此模块下设立了三个子系统:1、馆藏资源数字化系统,包括纸质档案扫描子系统、缩微胶片数字化子系统、视频资料数字化子系统、音频资料数字化子系统;2、信息接收系统,通过卸载报盘和网络在线的方式,接收立档单位的电子档案和应归档电子文件及其元数据,以及下属档案馆的电子档案信息;3、信息搜寻系统,通过网络在线采集现有的各种信息资源库,如国土信息资源库、人口统计信息资源库等;采集各网站的网页、历史照片、有关新闻报道、统计数据、历史事件的声像资料等其他社会零散信息,作为数字档案馆数字资源建设的补充。
(二)信息管理模块。主要负责对采集到的信息进行整理、分类、管理,使大量无序的信息有序化。其功能主要包括:电子档案标准化、元数据著录、分类号主题词自动标引、多媒体档案标引、目录管理、档案鉴定、报表打印、信息统计等。其中电子档案标准化子系统对收集来的符合或通过转换使其符合一定规范(包括电子文件元数据标准、数据交换标准、文件的语言格式、数据交换的物理存储介质标准和数据交换的逻辑格式标准等)的数字信息及其元数据,根据采集时所带的目录信息,采取一定的分类方案,将这些数据有序地存储到系统中。元数据著录子系统是对采集来的数字档案信息进行内容、结构、背景信息等相应项目的元数据进行检查和缺项补著录,建立元数据库。分类号主题词自动标引子系统含有按逻辑关系将符合《中国档案主题词表》有关要求的主题词和符合《中国档案分类法》有关要求的信息分类号组合在一起所形成的一套分类号主题词对照表,系统可以从“对照表”中自动提取相应的分类号?主题词,完成标引任务。档案辅助鉴定子系统可以对数字档案信息进行批量的内容鉴定和技术鉴定:内容鉴定是根据档案开放所必须具备的条件,档案价值判定、保管期限划分的标准,档案真伪鉴别的主要依据等要素,同档案文件的来源、类别、责任人、形成时间、存储介质等众多信息相结合,制订鉴定规则,利用计算机的智能技术,建立起专家智能鉴定系统,进行档案信息的批量辅助鉴定;在此基础上再由专家对辅助鉴定过的档案信息进行直接鉴定,予以确认,不仅可以大大减少全部由人工直接鉴定的工作量,同时能保证鉴定的质量。技术鉴定子系统是对电子文件各方面的技术状况进行全面检查,包括对文件信息真实性、完整性、可读性分析以及对文件载体状况的检测(该系统目前正在研制当中)。统计报表子系统能对系统中的基本数据进行汇总,形成统计表,包括规范化统计表和自定义统计表,如档案馆基本情况年报、全年档案利用统计表、温湿度统计表等。
(三)信息利用模块。负责对数字档案馆管理的海量电子档案信息,运用计算机和网络技术向社会提供超越时空界限的利用服务,可以使具备上网条件的用户在任何地点、时间得到权限许可的档案信息,真正实现数字档案信息资源的共享。该模块包括:档案信息开发,综合智能查询,网站信息发布,光盘发布等子系统。其中档案信息开发子系统的主要功能是进行档案信息的编研规范化和素材编辑。综合智能查询子系统可提供馆藏电子档案的文档、图形图象、语音资源、视频资源的查询阅览及虚拟演播等服务。网站信息发布子系统能够将馆藏电子档案通过互连网进行发布,提供对外信息服务。光盘发布子系统能将允许发布的多媒体信息资料,包括目录数据及原文以一定的格式迁移到光盘上,形成发布盘,既能在网上运行阅读,又能提供给用户进行单机阅读。
(四)电子档案信息安全维护模块。深圳数字档案馆的安全维护,从物理安全、信息资源安全和安全保密管理几方面着手,采取了一系列措施:
1、数据迁移、备份、恢复。数字档案馆的应用系统分布在三网物理隔离的网络环境中,无法直接通信,这就产生了信息隔膜,必须进行数据迁移。本系统采用的方法是先从一个网络的数据库中将数据导出到可写光盘、热拔插硬盘等介质,再将这些介质接到另一个网络,将数据导入其数据库中。深圳数字档案馆系统的主要设备、软件、数据、电源等都有备份,并有技术措施和组织措施可以在发生故障后较短时间内恢复系统运行。服务器采用双机备份,主工作机出现故障后,备份机自行启动工作。数据脱机备份使用光盘,灾难恢复采用磁带机。服务器的UPS电源保证在停电后十小时内仍可保持正常工作;软件备份利用关系数据库系统自身提供的功能,对元数据和存储文件的对象数据库进行备份恢复。
2、计算机病毒防治。采用国家有关主管部门批准的查毒、杀毒软件,适时对服务器和客户端查毒、杀毒,并制定严格的防毒制度。
3、身份鉴别。深圳数字档案馆系统鉴别主体身份的方法主要有二种:一是只有该用户了解的秘密,如口令、密钥等;二是用户携带的能证明用户身份的物品,如智能卡;三是只有该用户具有的独一无二的特征或能力,如指纹、声音、视网膜等。凡政务网上的在线移交、信息检索都要进行身份鉴别。
4、访问控制。对用户进行操作权的限制,包括功能权限制和数据权限制,主要防范用户的越权访问。
5、信息加密。分传输加密和存储加密。信息传输加密用来防止通信线路上的窃听、泄漏、篡改和破坏,其方式通常有链路加密、网络层加密、应用层加密等,深圳数字档案馆系统采用应用层加密。凡是需要在网络上传输的数据,传输前必须加密。信息存储时,对每份原文进行了加密。加密协议采用的是国际标准协议DES和RSA,具有一定的权威性。
6、信息完整性校验。其作用是防止信息被非法篡改、插入和删除。本系统采用数字水印技术保护信息的完整性。
7、安全审计。深圳数字档案馆系统利用数据库、操作系统、安全保密产品和应用软件的审计功能来完成安全审计。
五、数字档案馆与传统档案馆的关系
数字档案馆的建成,并不意味着传统档案馆的消亡。由于各自的主要功能不同,加之各自具备适应某种社会需求的特殊优势,决定了数字档案馆和传统档案馆将长期共存,它们之间是一种互为补充、互相依存的关系。
(一)数字档案馆不可取代传统档案馆
数字档案馆在向社会提供服务中,与传统档案馆相比具有明显优势,但这并不说明数字档案馆可以取代传统档案馆,在现代社会传统档案馆具有自身的优势,具有继续存在和发展的生命力。
1、传统档案馆的馆藏主要是原始档案的实体,在历史真迹、凭证价值方面具有法律效力上的优势。当人们需要获得法律援助时,除了在网上搜寻有利的信息外,还要索取不易被篡改的档案实体原件作为原始凭证。这一社会功能的有效发挥,非传统档案馆莫属。
2、传统档案馆馆藏的重要档案原件以纸质为主,许多重要的原件进行了缩微拍摄。纸质和胶片的寿命都远远超过数字化信息,且不易被篡改。据测试,机读磁带、唱片、硬盘的寿命仅十至几十年,其中磁带至多20年,寿命最长的是CD-ROM,但也只有30年左右。要想延长数字化信息的保存期限,只有不断地重新复制。要长久保存历史档案文化财富,目前最可靠的还是传统档案馆。
3、传统档案馆以其丰富的历史档案和珍藏的孤本原件可供有关社会人士休闲观赏,充分发挥档案珍品的社会价值,尽管凭借汁算机从网络上也可以搜寻、阅读多媒体珍品信息,但从观赏、品味的角度来讲,人们更看重珍品的实体原件。在人民生活水平、文化素养不断提高的现在和将来,这一社会需求将日益突现。
4、数字化信息必须借助于一定的硬件和软件才能被用户所利用,由于经济和技术发展的不平衡,在一些经济欠发达地区,计算机和网络的应用在相当长时间内还不会普及到全体社会公众,许多人还要造访传统档案馆,查阅、利用档案。传统档案馆的社会服务功能,还将继续沿用很长时间。
(二)数字档案馆与传统档案馆互相依存
数字档案馆与传统档案馆都因社会的需求和各自的优势而得以生存和发展,然而由于各自都有某些弱点而必须互相依存,不能孤立地存在。
1、在档案信息资源建设上,传统档案馆馆藏档案原件是数字档案馆数字化档案信息的重要来源;数字档案馆为传统档案馆进一步丰富馆藏提供线索和可能。传统档案馆保存的本辖区或本专业系统立档单位移交的档案以及征集进馆的珍贵档案原件,通过数字化加工,进入数字档案信息资源库,成为数字档案馆数字化档案信息中最基本的、重要的核心组成部分。离开了这一来源,数字档案馆将难以构建完整的、有权威的信息资源库。然而传统档案馆的馆藏档案主要是根据国家规定,通过接收立档单位移交的档案积累起来的,而对于散存的重要档案以及其他专门行业档案信息的收集,却因缺乏线索和有效途径而难以实现。数字档案馆恰好在这方面具备优势。数字档案馆保存的数字信息,不仅有传统档案馆馆藏档案的数字化信息,还包括电子政府形成的电子文件及时归档、政府综合信息的及时采集。同时,数字档案馆与企业信息化建设相联系,可与企业信息网络建立互联互通关系;与电子商务建设相联系,可与金融、保险、政府采购、运输、物流配送等电子商务信息服务系统建立联通关系;与社会公共服务信息化建设相联系,可与覆盖全社会各领域(包括教育、科技、文化、医疗、社会保障等)的应用信息数据库建立互联关系。这样就为传统档案馆提供了进一步收集社会档案信息,丰富馆藏的线索和途径。
2、在档案信息资源的开发利用上,传统档案馆由于缺乏强有力的开发利用手段,受时间和空间的局限而不能迅速、广泛地为社会提供档案信息服务,限制了档案信息价值的发挥。数字档案馆则可以凭借网络优势,在极广阔的范围内发布数字档案信息,不受时间、地域的限制,提供快捷、方便的服务,实现档案信息资源共享。在必要的时候,可以通过传统档案馆收藏的档案原件和缩微品取得真实性印证,产生档案信息的法律效力。
3、在档案信息真迹的保护上,传统档案馆优于数字档案馆。数字化信息可以完美地被复制,也可以不留痕迹地被修改。计算机病毒、磁场、电磁脉冲都对数字化信息和计算机系统具有破坏性。由于信息技术发展迅速,同时也由于商业因素,数字档案馆常常遇到技术过时的问题,需要更新硬件设备和软件版本,需要把数据迁移到新型的载体上去。而在迁移过程中容易出现数据丢失的问题。尽管上述问题可以采用较先进的技术得到控制性的解决,但难以从根本上杜绝发生。
4、在档案信息的加工上,传统档案馆馆藏档案信息经过数字化加工、整序,成为数字档案馆数字信息资源的核心组成部分,并生成各种类型的信息目录(二次文献)和结构较单纯的档案参考资料(三次文献),如“大事年表”等。这种方式的二次加工,不仅免除了传统档案馆人工编目、编研的繁琐和辛劳,而且所编的目录、资料能适合机检和手检、机读和直读,形式可以不断更新,能满足不同的需求,能在馆内和网上组建档案信息资料目录中心。而深层次加工的档案编研成果(三次文献),如:各种“综述”、“专题概要”、“人物传记”、“指南”以及利用馆藏档案资料编制的图片、音像等多媒体参考资料,还要依靠传统档案馆来进行,数字档案馆可以将经数字化的深层次编研成果,融入数字信息资源库在网上发布,提供服务。
(牛角摘自《中国档案》2003年第3期)