数字化时代下的民国档案目录数据库
中国第二历史档案馆(以下简称“二史馆” ) 正如火如荼地开展的民国档案数字化项目,始于2009 年,历时10 年,目前基本实现既定目标。这一浩大而又系统的档案数字化工程,包括数字化前整理、扫描、缩微、质检、验收等十余个环节。数字化前整理工作是民国档案数字化工程的基础环节。通过这一环节,对馆藏200 余万卷、合计约2 2 亿页画幅馆藏档案依据档案整理的基本原则、程序和方法,进行了案卷级整理,基本实现了档案实体数字化,其数据加之原有目录信息为建立全国乃至世界最大的民国档案目录数据库奠定了良好的基础。但是数据库如何依托、借助大数据技术进一步发展,使功能更加齐全、数据范围更加广泛、内容更加深入,从而快速而准确地提供民国档案信息、实现档案信息资源共享是我们需要思考的问题。
一、二史馆原有目录数据库概况
二史馆经过多年目录建设,初步形成了馆藏档案目录体系,建有3 套目录数据库。
分类目录数据库,是1993 年开始建立的、为了适应机器检索要求而编制,其总量目前为130 余万条。这是按照«民国档案分类表» 进行的以分类标引为主、主题标引(即人名、地名、机构名) 为辅的机检目录。
这套目录打破了全宗概念,提供了多途径的检索入口;其目录的栏目有:全宗号、案卷号、案卷题名、案卷起止年月、分类号、主题词(人名、地名、机构名) 等。
案卷目录数据库,1994 年始建。其总量约150 万条,它是替代书本式的机检案卷目录,按全宗顺序排列,但存在缺乏分类和主题检索、新近整理的全宗目录尚未收入、不少案卷标题过于简单等问题。其目录的栏目有: 全宗号、全宗名、案卷号、案卷题名、案卷的起止年月等。
馆藏档案库位数据库,是二史馆馆藏档案存放的库位表。它是档案调出、归位的依据。其目录的主要栏目有: 全宗号、全宗名称、案卷号、存放位置(区、架、层、位号)、保管责任人、排架长度、起止案卷号、案卷的存在状态(移交、改重、原缺等)、案卷的自然状况(是否破损) 等。
3 套目录从不同的角度满足了一定时期二史馆档案利用和管理工作的需要,但由于分属于本馆3 个部门,且档案处于不断的变化之中,如档案重新整理等,使各种目录处于动态管理之中。因而在经过了一段时间之后,目录数据与档案实体、3 套目录数据之间不尽一致,使馆藏档案和目录的统计各不相同;按照档案目录数据库对数据的要求,如目录的变化、使用状况等诸多内容,则需要加大补充;加之机读目录和手工目录存在着很大不同,尤其目录数据库是按照一定要求编制,有很强的技术性,数据库建成后,宣传不够,使用受到限制。对照目录数据库的各项要求,在实际工作中,这3 套目录各自都存在不尽如人意的地方,加之当前数字化、网络化,以及应用档案数字化的成果,亟需进行发展、改进和完善,以适应大数据时代下之要求。
二、完善目录数据库建设的必要性
大数据时代下,各种数据必须符合规范、全面、创新、发展等要求。对于档案馆来说,目录数据库是档案馆自动化、数字化的实质内容和处理对象,而目录数据准备多样化,才能适应大数据各类数据之要求。因此馆藏目录数据库从当今社会需要、档案现状以及技术要求等方面看,更应完善和扩大其功能。
(一) 从社会需要上看
在今天的知识经济、数字时代下,社会对档案的需求日益增长。民国档案备受各界欢迎和重视,被查找的范围越来越广,利用亦愈加深入。二史馆作为保管民国档案的重要基地,必须有所作为。而开展馆际间档案信息的交流,实现全国乃至世界范围内的民国档案资源共享也早已提上日程。如随着民国档案目录中心全国民国档案全宗级目录数据库的建成和全国民国档案案卷级目录数据库的在建,馆藏文件一级的目录数据也将为建设全国民国档案文件级目录数据库创造必要的条件。实际上,英国2012 年就已建立了基于互联网,以国家档案馆为骨干、国内其他2500 余家档案馆参与的全国性馆藏开放档案目录在线咨询的“探索” 服务平台,目录信息就达1000 余万条。
(二) 从档案现状上看
民国档案数量浩大,经过几代档案人的辛勤劳动,大规模的整理工作基本结束,已实现档案“有规可循、有目可查”,几年前利用馆藏案卷目录、建成案卷级目录数据库并提供利用完全必要。但目前目录数据已经满足不了现状,一是案卷级数据概括性强,难以准确反映其档案内容;二是档案中很多重要信息还藏于案卷中未被开发,只有深入文件一级才能揭示;三是案卷级中有不宜开放的档案,只有揭示到文件级才能区分。随着档案数字化的进程日益加快(目前馆藏近1/5 的档案已经数字化),并深层次地开发文件一级的档案信息,达到文件级甚至档案全文信息检索,都需要完善馆藏目录数据库并扩大其功能。
(三) 从技术要求上看
建立和完善目录数据库,是开发利用民国档案信息资源,实现计算机网络技术在档案信息管理中的应用,最终实现档案管理现代化。计算机存贮和检索档案信息是档案现代化管理的重要标志,计算机网络技术在档案信息管理中的应用已成为档案管理现代化的重要基础设施。如今信息技术、计算机网络技术日新月异、突飞猛进,档案馆自动化、数字化已成现实。完善馆藏目录数据库已不会再像当时建立案卷级目录数据库那样受到技术、设备等条件限制,如数据库库内容量、字段字节等等。目前馆藏目录数据库数据再多、容量再大等已不再成为技术问题,完全可以满足不同利用者从各个检索角度提出的查询要求;同时,可以应用计算机先进技术,扩大其功能,快速准确查找所需任何内容。
三、改进和完善目录数据库之要求
要实行计算机检索档案,实现档案信息的网络化,就必须解决数据库及数据的标准化、规范化,达到目录数据库的资源共享,并注意档案数据的安全性,最终基于互联网,实现数据库网络化。
(一) 目录数据库必须标准化
«中华人民共和国标准化管理条例» 指出: “标准化是组织现代化生产的重要手段,是科学管理的重要组成部分,在社会主义建设中推行标准化,是国家的一项重要技术经济政策。” 这充分阐明了标准化的地位和作用。因此,今天的目录数据库,标准化的规范体系显得尤为重要,同时也是档案馆数字化建设高质量的坚实基础。注重其标准化、规范化,包括两方面的含义: 一是指为适应目录数据库发展需要而制定的有关原则与方法的确切表述和具体规定,它包括专业名词术语标准、代号代码标准、著录标准、标引语言标准等。二是在档案馆网络建设时要充分考虑硬件的选型、软件的配置、数据库的标准格式和信息传播的方式等。不然,将造成不必要的人、财、物的浪费,进而影响档案馆自动化、数字化的进程。二史馆制定了档案数字化前整理编目的相关业务文件,有“民国档案数字化前整理规则” “民国案卷标题问题及处理方法” “案卷审查要求” “民国档案案卷标题修正案例解析” 等,以确保数字化前整理编目工作对其数据的标准化和规范化,也必将为下一步制定文件级目录数据打下良好基础。
(二) 目录数据库的资源共享
目录数据库的建设最终目标: 一是目录的管理,二是实现资源的共享。实现资源共享,这是在数据标准化和网络化的整体基础上实现的。共享性要求网络中各保管民国档案的档案馆都要建设具有自身特点和地域特点的目录信息数据库,作为网上信息资源的补充,二史馆目录数据库尤为重要。
所谓共享性原则,是指进行数字化的目录数据应是可以公开提供利用的,可以凭借网络技术实现档案信息资源的零距离利用和社会共享。为此,必须经过档案的开放鉴定及最大限度地扩大馆藏档案信息资源的共享范围,数字化的数据范围不仅包括开放卷,而且应延伸到控制卷中可以开放的文件。只有这样,目录数据库数据才能成为公共信息资源的重要组成部分,凭借社会化的信息技术,适应国家改革开放和经济全球化的需要,实现民国档案依法开放和信息资源共享的最终目标。英国国家档案馆的“搜索” 平台自开放3年来就为社会发布了3000 余万条目录信息,提供了1 44 亿件历史档案,为民国档案目录数据库的信息资源共享提供了有益的借鉴。
(三) 注意目录数据的安全性
一个高质量的目录数据库的数据信息更要注意其安全性。安全是目录数据库建设中一个不可忽视的重要方面。数据信息对安全保密有严格的要求,有相当一部分数据信息是需要控制使用的,所以必须采取一系列措施保证数据信息的保密和安全。通常采取的措施分为制度管理(经过对档案的开放鉴定,凡涉及国家机密和个人隐私及影响社会稳定、民族团结、国际关系的档案不予提供) 和技术保证(相应的技术措施进行自动控制,对馆内馆外不同利用者根据权限提供数据信息) 两类,最终确保目录信息的保密和安全。
(四) 实现目录数据库网络化
二史馆数据库网络化的应用格局是: 目录数据库实现在馆局域网中流通和利用,并依托馆局域网加强档案利用服务窗口建设,完善本馆档案目录建设,借助互联网推进档案信息网站建设。做到标准统一、功能完善、安全可靠、利用方便,力争建立以本馆档案为骨干,国内乃至有关国家地区保存民国档案的档案馆参与的馆藏民国档案开放目录数据库,以实现全球民国档案信息资源共享为最终目标。
总之,二史馆目录数据库特点应是: (1) 馆藏各类目录数据的高度整合,集全宗、案卷、文件等信息于一体,实现一站式档案信息检索;同时也是档案调出、归位等实体管理的依据;(2) 按照«民国档案分类表» 进行的以分类标引为主、主题(关键词) 标引为辅的数据信息导航功能;(3) 设有包括档案全文信息检索在内的众多检索入口,利用者可以通过某个检索入口进行初级检索,也可以运用灵活的方式进行提问式检索等高级检索;(4) 具有利用连接功能,除了掌握目录利用情况,还可知道利用者对目录利用后的反馈信息;(5) 除满足利用者从不同的角度查找所需的任何内容,还可根据需要,打印完整的全宗目录、案卷目录、文件目录、各种专题目录及至原始档案版面不失真的显示与打印;(6) 保证数据库内的每个数据都有清晰的利用者使用权限;(7) 多样化的目录形式,随时公布目录的更新与开发信息,满足不同类型、不同行业、不同规模利用者个性化的信息需求;(8) 遍布全国和海外的民国档案目录数据交换服务中心,配上常年的利用者培训与高效的技术支持。
四、完善目录数据库之具体做法
一个高质量的数据库除了系统先进、利用方便外,其中的目录数据至关重要,至少应达到以下质量标准: 第一,数据的准确性;第二,数据项目和内容的完整性;第三,数据的规范性;第四,数据的稳定性。
目录信息必须按照职能划分,由职能部门负责,目录数据也应由职能部门人员进行增删修改。职能部门负责目录管理的主要工作内容应是: 保持全馆各种目录的完整性、正确性;负责馆内部计算机局域网中机读目录数据库数据的变更;在目录数据发生变更的时候,及时更正;审查、校核、保管并提供馆内的各类目录,如案卷(文件) 目录、专题目录等;提前介入对馆藏档案信息的进一步开发并对其实行全过程跟踪服务,及时修改、更新档案目录;制作、保管并及时更新档案目录信息的备份数据;随时公布目录的更新与开发信息;完善馆藏档案全宗变动历史情况的全宗目录;等等。
为完善馆藏目录数据库,方便在馆内局域网甚至互联网上提供服务,并为下一步文件级和案卷级目录数据于一体的目录数据库打下基础,还需做如下工作:
(一) 尽快开展文件级著录工作
民国档案数字化前整理工作完成或即将完成之时,应尽快开展文件级著录工作。第一,充分利用已有数字化成果,直接在计算机上对画幅进行操作,切忌再利用档案原件。第二,更新、开发、制作适合文件级著录的软件。如灵活编辑画幅、抽取所需关键词等软件。第三,结合以往文件级著录的经验,集思广益,制定文件级著录规范。应在«档案著录规则» «民国档案著录细则» 的基础上,制定适合本馆甚至全国保管民国档案的档案馆实际的«民国档案文件级著录细则» 等一系列规范规则,指导文件级著录工作。
文件级著录工作依然采取如档案数字化前整理业务外包形式。首先,可以加快文件级著录工作进度;其次,可以提高文件级目录制作质量。当然业务外包具有诸多优点,但应从档案法律法规的高度制定规章确保外包公司认真履约,严格监督外包公司的档案安全和信息保密工作。
(二) 应用软件的不断升级更新
随着计算机技术的不断升级,从技术上随时要求扩大数据库功能,增加数据库内容;及时更新各种管理、利用信息连接等项功能的设置;编制帮助利用者使用数据库数据的“利用介绍” 和“查询指南”;根据利用者查询频度和意见反馈不间断推出“热门档案” 等栏目,以及配合国家和社会重大活动开展的定题服务,如“抗战七十周年”、“红军长征八十周年” 等纪念活动;实时推出对利用者有所帮助的实用小工具软件,都将使馆内外利用者使用数据库更加便捷。
(三) 对档案实行划控
按照«民国档案案卷级目录整理与划控工作规范» 及中央档案馆、国家档案局相关标准,对数据库数据进行全宗级划控、对整个数据库中不同全宗涉及控制范围的案卷和文件也进行划控,并按照利用者权限决定开放与否。
(四) 改善目录状况
目录数据库逐步建全完毕后,形成一套馆藏档案按全宗自然顺序排列的案卷、文件目录,即馆藏账本式目录;一套馆藏档案开放目录,以适应不同利用者需要。
该项工作只有领导重视,群策群力,始终将此作为档案馆实现自动化、数字化的一项重要工作来抓,从而实现民国档案信息资源共享的最终目标。