电子档案文件级目录数据库的设计与实践
一、电子档案的分类
随着信息技术的迅猛发展,大量的电子文件产生,电子档案的概念也出现在档案工作者的面前。从字面理解,电子档案就是档案馆接收和保存的有归档价值的电子文件。«DA/ T 58—2014 电子档案管理基本术语» 中定义电子档案即“具有凭证、查考和保存价值并归档保存的电子文件。 ”
一般的观点认为电子档案产生来源有两类,一种是由一般的电子信息系统产生的,另一种是由电子公文系统产生的。前一种电子档案通常是通过纸质档案数字化加工软件生成或缩微胶片转换形成的,后一种是由电子公文系统在线直接归档产生的原生电子档案。后者的管理更多要依靠电子公文系统的设计,在文件形成的前端进行控制,采集电子文件的元数据,最终生成电子档案。 这类的电子档案目录数据库的设计更多依靠电子公文系统,档案部门通常位于文件生成的后端,现阶段不具备对文件进行全程控制的条件。
本文主要研究的是第一类电子档案,即纸质档案数字化或缩微胶片转换后形成的电子档案。为方便表述,以下探讨凡涉及“电子档案” 这一概念的,均指这类电子档案。
二、电子档案的著录
无论纸质档案还是电子档案,这些保存了重要信息的载体,能够通过工具检索,提取文件中的重要信息资源,才能体现档案的价值。杂乱无章的文件如何形成井然有序的档案,首要工作就是档案的整理。归档文件的整理工作主要分为系统化和编目两部分。将文件归类和排序是系统化的主要工作,编目是指为归档文件编制目录的过程。
(一) 编目和著录
归档文件的编目和电子档案的著录,通常被认为是一个类似的概念,都是一个动作,形成可供检索的目录的过程。从狭义上讲,二者是同义词,广义上编目还包括将著录形成的各条款目按照一定的原则与方法组织成各类目录的过程。
对于“档案著录” 的概念,在1992 年的行业标准«DA/ T 1—1992 档案工作基本术语» 中是这样定义的: 在编制档案目录时,对档案内容和形式特征进行分析、选择和记录的过程。 在2000 年颁布的行业标准«DA/ T 1—2000 档案工作基本术语» 中是这样定义的: 对档案内容和形式特征进行分析、选择和记录的过程。 到了2014 年,行业标准«DA/ T 58—2014 电子档案管理基本术语» 中的定义: 按标准形式对电子档案的内容、结构、背景及管理活动进行描述的过程。
从对著录概念的变化,可以看出不同于纸质档案的著录,电子档案的著录还增加了包括结构和背景、管理活动等相关内容的描述。
(二) 电子档案的著录
根据我国的«DA/ T 18—1999 档案著录规则» 的要求,还是主要应对的是传统意义的档案。到目前为止,还没有一个国家标准来统一规范电子档案的数据结构。在没有行业标准的前提下,电子档案的著录通常是依靠档案整理过程中的编目后形成的档案目录,通过人工录入的方式,将编目完成的纸质目录,输入数据库中,最终完成目录数据库的建设。
如果完全依照«DA/ T 18—1999 档案著录规则» 的要求,那么电子档案著录中就会发现以下问题:
1 与电子档案相关的结构信息、背景信息等没有相应项目填写。例如,电子档案为了便于和档案图像文件挂接,需要原文路径项目在著录规则中并没有涉及。
2 符合著录规则的目录项目并不一定完全适合电子档案。例如,文件的形成时间由8 位阿拉伯数字组成,原时间缺少或字迹不清晰的以“□” 补之。电子档案通常会采用8 位字符,不能查考的时间补零,而很少使用“□”,既不便于检索,也会绐计算机系统的开发增加难度。
3 著录规则中的著录项目只是定义了项目的内容和文字要求,而电子档案的目录数据库还要求了数据库字段项的格式和长度。
通过和传统档案著录的比较,我们发现电子档案的著录或者说目录数据库的建库过程,除了要满足档案业务的基本规律以外,还要符合计算机的语言习惯和数据结构要求。
三、目录数据库的设计与实践
为了适应档案管理现代化的需要,完全不同于传统立卷方法的“文件级” 整理方法出台,«DA/ T 22—2000 归档文件整理规则» 于2000 年12 月6 日由国家档案局正式颁布,并于2001 年1 月1 日起实施。2015 年10 月25 日又重新修订了该标准,颁布了«DA/ T 22—2015 归档文件整理规则»。最新标准扩大了标准的适用范围,由纸质文件材料扩展为纸质和电子文件材料。
电子档案的文件级目录数据库的设计既要与传统纸质档案的编目有差别,也要和传统的“案卷级” 档案建库区分开。本章将结合中央档案馆在电子档案文件级目录数据库建设过程中的经验,详细介绍数据库设计应遵循的原则、遇到的问题和解决思路。
(一) 设计原则
档案目录数据库的设计是为了更快捷地查找到要查找的档案资源,并且和相应纸质档案建立关联。这就要求在数据库设计的过程中要做到和纸质档案的一一对应,能够通过数据库快速查找到相应的电子档案图像和纸质档案。
符合归档文件整理规则,并且做到与纸质档案的一一对应是电子档案文件级目录数据库的重要设计原则。
(二) 详细设计
电子档案的文件级目录数据库的设计主要分为两个部分,一是数据库系统的选择,二是数据结构的设计。
1 数据库系统的选择
根据档案行业的特殊性,在数据库系统产品的选择方面,主要有以下几个标准可供参考。
(1) 数据库建设的易用性: 主要指数据库管理语句符合国际标准,有面向用户的易用的开发工具。
(2) 数据库管理系统的性能分析: 主要指数据库系统具有性能评估、性能监控、性能管理等功能。
(3) 海量存储能力: 主要指数据库系统可以支持海量的数据,不会影响系统使用的效率。
(4) 并行处理能力: 主要指支持多用户并发。
(5) 可移植性和扩展性: 主要指数据库系统迁移的能力。
(6) 并发控制: 数据库系统支持多CPU 模式。
(7) 安全性: 主要指数据库系统具有账户管理、用户权限、网络安全控制等功能。
(8) 对汉字的支持: 主要指数据库描述语言的汉字处理能力和数据库开发工具对汉字的支持能力。
能够较好地满足上述标准的数据库系统都可以成为电子档案数据库设计的载体,目前市场上主流的数据库产品也都具备这些能力。 随着我国数据库技术的发展,越来越多的国产数据库产品已经在档案行业得到了很好的应用,虽然在稳定性、通用性等方面与国外主流数据库还有差距,但已经具备了在档案等领域的应用基础,甚至在安全性和本土化方面可以更好地满足档案业务的需要。
2 数据库结构
选择了适合自己业务需要的数据库后,就要开始目录数据库的建库过程。文件级目录数据库的数据结构主要由几类目录数据构成,结合档案著录规则,将文件级目录数据结构分为以下6 项,每项分为若干小项。
(1) 编号项: 主要包括序号、全宗号、机构(问题) 代码、机构(问题)、件号、档号。
(2) 题名与责任说明项: 主要包括题名、文号、责任者。
(3) 密级与保管期限项: 主要包括密级、保管期限。
(4) 时间项: 日期,年度。
(5) 备注项: 备注。
(6) 其他字段: 页数、盒号、原文路径、保管单位。
以中央档案馆在用的文件级目录数据库格式为例,共有18 个字段项,这些只是最基本的字段项,在实际应用中,数据库字段项不仅限于此。目录数据库结构和字段项要求如表1 所示。
以下详细介绍几个重要的数据库字段项。
(1) 档号
整个目录数据库的核心字段项即档号,档号由全宗号、年度、机构(问题) 代码和件号拼接而成。通过该字段可以准确了解一件档案在一个全宗内的相应逻辑位置。由档号和页数组成的原文路径字段标示了文件在磁盘中存放的物理位置。档号可以关联起纸质档案和电子档案,是档案中不能重复的重要标示。电子档案中为了排序的需要,档号是一个定长的字段项,件号会在相应的位置补零。这一点和纸质档案目录还是有区别的。
(2) 时间项
时间项主要有两个字段,日期和年度,日期即文件的行成时间,字符型由8 位阿拉伯数字组成,在时间不可考的情况下补零。年度是文件形成所在年度,字符型由4 位阿拉伯数字组成。时间项中采用字符型而没有使用数字型或者日期型,是由于档案的特殊性,很多历史档案的年代不详,一般情况下,会著录成“0000”,如果使用数字型或者日期型的字段项,就没有办法记录这样的数据。
(3) 其他字段
在档案著录规则中没有涉及这一部分的内容,主要有盒号、原文路径等字段。盒号是立卷改革后形成的,文件级档案装盒后,为了便于档案保管员快速找到相应纸质档案的物理位置设定的。原文路径如前文所述是电子档案存放在存储介质内的相对路径。
通过这些数据库字段项,可以看到电子档案文件级目录数据库结构既满足了归档文件整理规则中编目的要求,也体现了电子档案在实际应用中的特殊性。为了满足通用性的要求和大多数档案馆、档案室的使用便利,数据库结构中并没有设计载体类型、电子文件格式等字段。另外,这个目录数据库的设计是为了符合中央档案馆的业务需要,仅仅是针对文书档案的管理,没有照片档案、音视频档案的相关字段项,很多辅助的检索项也没有列出,如主题词等。
对于不同的业务需要,数据库设计中应该有相应的调整,增删字段项。没有一个目录数据库的设计可以涵盖所有的档案类型,片面追求“大而全”的数据库结构只会加重档案业务系统的负担。在数据库设计中应当根据业务需要,有的放矢,做到“专而精” 就好。
四、结论
本文在电子档案文件级目录数据库的设计过程中,介绍了电子档案的定义和分类,阐明了电子档案的著录和归档文件编目的关系。通过实际的应用,详细研究了电子档案文件级目录数据库的设计。
面对当下这个信息资源如此重要的时代,大数据、云计算等最新技术如何应用到档案行业,关键取决于电子档案的采集、管理和应用,仅仅依靠纸质档案数字化转换生成的电子档案,无法为数据挖掘提供有效的数据基础。随着电子公文系统的广泛应用,将会产生更多的原生电子档案,这类电子档案从合法性、真实性、有效性、完整性等方面还有大量的问题有待档案工作者解决。只有加快电子文件和电子档案的标准制定和立法,使更多的原生电子档案得到收集、管理和应用,让“存量档案数字化、增量档案电子化”,才能让档案信息资源搭上移动互联的快车,更便捷为社会所服务。