机读档案数据库
一、机读档案数据库的特点和种类
(一) 机读档案数据库的定义与构成
机读档案数据库, 简称档案数据库, 是以一定的组织方式存储在一起的机读档案数据的集合。这些数据包括档案题名、责任者、来源、页码、分类号、主题词、摘要等, 少数包含档案全文。数据库记录的各个项目称为字段, 在长度上可以是固定的,也可以是可变的。这些记录可以被组织起来以供检索和显示之用。具体来说, 档案数据库是机读版的档案文摘、索引、目录、文本及其他数据汇编。它是档案计算机检索系统必不可少的信息资源, 是档案计算机检索系统的核心部分, 其性能往往影响到整个系统的功能效率。
完整的档案数据库系统由档案数据库和档案数据库管理系统两大部分组成。
档案数据库由若干档案数据文档组成, 用来存储与档案检索有关的所有数据。其结构分为三层:
1 . 物理数据库
这是最内一层, 它是物理设备上实际存储的数据集合, 包含数据库系统使用的全部数据, 又称物理模式或存储模式。它与用户没有直接的联系。
2 . 概念数据库
这是中间层, 它是整体数据库的逻辑表示, 指出每一个数据的逻辑定义以及数据间的逻辑联系, 又称概念模式或全局逻辑数据库。
3 . 逻辑数据库
这是最外一层, 也是最靠近用户的一层, 是全局逻辑数据库的一部分, 是某一特定用户所使用的数据集合的逻辑表示, 又称子模式、外模式或局部逻辑数据库。子模式是用户和数据库的接口。
数据库的三层结构如图所示( 图5-2 )。
档案数据库管理系统( DBMS) 是为建立、使用和维护数据库而配置的软件。它建立在操作系统的基础上, 对数据库进行统一的管理和控制。用户使用数据的各种命令以及运行应用程序,都要通过数据库管理系统来传达。它还承担着数据库的维护工
作, 以确保数据库的完整性、一致性和安全性。具体来说, 数据库管理系统具备以下功能:
(1 ) 描述数据库: 对数据库三级模式的描述及建库。
(2 ) 管理数据库: 控制整个数据库系统的运行; 控制用户的并发性访问; 数据的存取及更新处理; 执行对数据的使用与操作等。
(3 ) 维护数据库: 确保数据的完整性、安全性和保密性; 数据库恢复和性能监视等。
(4 ) 数据通讯: 负责处理数据的流动。
数据库管理系统还具备与操作系统的联机处理功能, 具备分时系统及远程作业输出的相应接口功能。
(二) 机读档案数据库的特点
(1 ) 集成式。档案数据库对档案数据实行集中化控制, 可将各种有关数据集中在一起进行统一的控制和管理, 保证了数据的一致性、完整性。
(2 ) 结构化。档案数据具有复杂的数据结构, 它将各应用系统的全部数据合理地组织起来。
(3 ) 低冗余度。数据库中的档案数据重复少, 数据的冗余度被控制在最低限度, 节省了计算机存储空间。
(4 ) 可靠性。数据库系统采取各种手段加强了对数据的保护, 保证了数据的安全可靠。
(5 ) 共享性。数据库系统内的各应用程序可以共用, 数据库还可当作商品出售, 供不同用户、不同系统使用。
(三) 机读档案数据库的分类
一般将数据库所含信息内容作为档案数据库的基本分类标准, 根据此标准, 档案数据库可分为:
(1 ) 二次文献数据库。包括各种机读版的文摘、索引、目录等, 又称目录数据库。其作用在于指引用户找到合适的档案信息源, 也就是档案原文, 从而满足其检索要求。
(2 ) 事实数据库。又称文本-数值数据库, 是同时包含文本信息和数值信息的数据库, 它提供经过加工的一次情报, 利用者可直接从中查找自己所需要的档案信息。
(3 ) 全文数据库。存储机读化的档案全文, 可用来检索档案原文中的任何字、句、段、节、章等。
事实数据库和全文数据库统称源数据库, 其特点在于它本身含有一次情报, 即用户所要求获取的数值、事实或文本, 可直接向用户提供所需的档案信息。它相对于二次文献数据库来说, 是在更深层次上对档案信息进行加工的产物。源数据库近些年来发展很快。
按数据形式分, 档案数据库还可分为文字型数据库、数值型数据库、图像型数据库等。近年来又出现了将文本、数值数据、图像图形、声音结合在一起的多介质数据库, 这种数据库不仅能提供静态的文本、数字或表格, 还可闻其声、见其形, 是多媒体技术发展的产物。
二、机读档案数据库的生产
(一) 机读档案数据库的生产过程
机读档案数据库的生产, 包括档案材料的收集、鉴选、摘要、数据录入、校对、计算机处理等环节。
1 . 档案材料的收集
首先, 确定档案的收集范围和来源, 按要求全面收集档案材料, 作为建库的原始材料。收集档案材料一般以馆藏丰富的档案馆( 室) 为基地, 除此之外, 一些研究机构和管理部门也可作为数值数据和事实数据的重要来源。
2 . 档案材料的鉴选
收集来的档案材料须经过鉴别选择, 不能有档必录, 这是决定数据库内容范围和适用性的基本手段。鉴选时, 应以利用者需要为准则, 根据数据库的目的、范围选择有价值的档案材料, 摒弃价值较小或者有明显错误的档案材料。
3 . 档案文摘的编写
将收集来的档案材料一一作摘要, 将档案中包含的信息浓缩于档案文摘中, 以便进一步加工处理。档案文摘的编写应当标准化, 遵循国家标准GB6447-86 《文摘编写规则》。
4 . 数据准备
将档案的内容特征和形式特征著录、标引出来, 为数据库提供经过加工处理了的数据。著录标引也须达到规范化、标准化的要求。
5 . 数据录入
将档案前处理结果转化成机读数据。数据录入工作可以用计算机键盘根据工作单进行, 也可以用文字处理设施进行, 以后再作成批转换。
6 . 校对
计算机自动对录入的数据进行审核, 如审查字段的数据形式是否正确; 字段长度是否符合; 各种标识符号是否有误等。计算机对数据的校验可分别在不同阶段进行。
7 . 计算机处理
由计算机在程序控制下进行记录装配与格式转换。各个检索系统内部的数据格式可以不同, 但为了便于系统间的交换, 国际上有一种通用的标准化格式, 即ISO2709 《书目信息交换用磁带通讯格式》。
(二) 档案信息的磁带记录格式与机读档案目录
数据库生产者一般是将其生产的数据库记录在磁带上发行的。经手工方式进行著录、标引形成的档案二次信息, 要以机读形式表达出来, 须对数据单元进行更为严格的标准化处理, 包括对每个项目的长度、所使用的标记符号、数据单元的含义等作出具体的规定。目前, 我国已根据ISO2709-1973 制订了国家标准GB2901-82 《文献目录信息交换用磁带格式》, 提供了磁带格式的基本轮廓, 可适用于处理不同类型的文献信息。
机读目录(MARC) 是60 年代后期在手工方式上发展起来的用计算机处理的目录形式, 最初只用于图书编目, 专门用于档案检索的机读目录是以后才发展起来的。
1973 年, 美国国会图书馆第一次发表了用于手稿管理的机读目录格式, 由于该格式在制定过程中没有档案界的参与, 所以一发表就遭到了反对, 后来, 美国档案学会成立了一个档案信息交换委员会(CAIE) , 与已有的美国图书馆协会的机读目录信息委员会(MARBI ) 合作, 在1973 年发表的手稿机读目录格式的基础上, 修改成MARC AMC 格式( MARC for Archives andManu scripts Control ) , 作为研制档案信息系统的数据格式标准。
该格式直到1986 年以后才真正被档案界接受, 成为建立档案二次文献数据库的基础。
MARC AMC 的逻辑记录格式为典型的目次方式, 由头标区、目次区、数据区三个区组成, 数据又分为控制字段( 固定长字段) 和可变长字段两部分。
1 . 头标区
固定长24 字符, 从记录的第0 位起, 到第23 位结束, 无字段结束符, 提供以下参数:
(1 ) 记录总长。记录所占字符的总数。
(2 ) 记录状态。说明该记录是新输入的、删除的, 还是修改过的记录。
(3 ) 记录类型和目录级别。
(4 ) 指示符长度和子字段代码标识符长度。
(5 ) 数据基地址。指出数据区第一个字符的地址。
(6 ) 目次区内字段长度。
以上六项参数共占用18 位, 余下的6 个字符供用户决定如何使用。
2 . 目次区
由若干个目录加一个字段结束符组成。目次区内目录的数量, 取决于数据区字段的数量, 数据区每12 个字段在目次区中都有一个长度为12 个字符的目录。目录是定长的, 总长度为12N ( N 为数据区内字段的个数)。
3 . 数据区
是MARC AMC 的核心部分。字段设置的主要依据是档案著录规则, MARC AMC 是根据英美编目条例( AACR-Ⅱ ) 制订的, 和我国的《档案著录规则》有较大差别。数据区中每个字段结束时, 都必须有字段结束符( F, 1F16 ) , 最后一个字段的结束符用记录结束符( R, 1D16 ) 代替。
MARC AMC 具有以下功能:
(1 ) 作为数据交换的媒介, 在系统间交换目录信息, 可用来建立标准的二次档案文献数据库, 建立档案目录中心, 在一定程度上实现档案编目的社会化和档案信息资源共享。
(2 ) 可以集中生产卡片式和书本式目录, 编制联合目录, 提高目录生产的效率和质量。
(3 ) 可以用来生产各种机编索引, 提高索引生产的自动化程度。
(4 ) 可以缩微形式输出目录信息, 利用计算机缩微输出设备(COM) , 将机读目录信息直接转换为光电信号记录在缩微载体上。
(5 ) 可以提供多途径检索。MARC 记录中的每个数据单元都可作为检索入口, 检索途径比手工著录的目录要多得多。
总之, MARC AMC 格式为建立档案二次文献数据库提供了标准化的数据基础, 它不一定完全适用于我国机读档案目录的生产, 但可作为发展我国机读档案目录格式的借鉴。
(三) 档案数据库对档案著录标引的特殊要求
1 . 对档案著录的要求
(1 ) 必须采用机读目录格式进行著录。应采用国家标准GB2901-82 《文献目录交换用磁带格式》和《文献目录信息交换用软盘格式( 暂行规定)》。
(2 ) 采用标准的项目标识符。
(3 ) 采用详细著录级次, 必要时可增加一些项目。
(4 ) 填写著录工作单, 保证数据录入准确无误。
2 . 对档案标引的要求
(1 ) 进行深度标引。采取全面标引方式, 对档案的整体主题和局部主题, 只要有较大检索意义的, 都可标引出来。一般来说, 一份档案标引深度可达到5~15。
(2 ) 用自由词作补充标引。对一些新概念和词表中未列出的专有名词如人名、地名、机构名、工程代号、产品代号、会议名称等, 可作为自由词经一定规范后直接标引出来。
(3 ) 标引具有两个或两个以上主题的档案时, 采用关联符号, 以避免误组配。同一个主题的标识采用相同的关联符号, 置于文献号之后。例如, 对《钢的硬度和铝的强度分析测试报告》,标引为:
钢 0124a 硬度0124a 测试0124a, b
铝 0124 b 强度0124b
在这里, 0124 是文献号, a、b 是关联符号。检索比号时, 不仅文献号须相同, 关联符号也须相同。
(4 ) 加注机编主题目录标题符号。数据库可用来生产供手工检索用的机编目录和索引, 供手工检索用的标引词是先组散组式的, 对标引深度和组配次序有一定的限制, 为此须加注标题符号。
标题符号一般由两部分组成, 位于前面的符号表示是哪一条款目, 后面的符号表示标题的级别。例如:
钢 S1 A 硬度S1 B 测试S1 C, S2 C
铝 S2 A 强度S2 B
S1 、S2 分别表示第一、二条款目, A、B、C 分别代表主标题—子标题—次子标题。根据此标题符号可做成两条款目:
① 钢———硬度———测试
② 铝———强度———测试
(5 ) 进行上位登录。即在给出一个检索词或分类号的同时,给出所标引档案所有的上位词或上位类号。其作用是方便扩检,提高检全率。上位登录可通过程序由计算机自动进行, 也可人工进行。
(6 ) 填写标引工作单。工作单所列栏目和项目视具体的档案计算机检索系统的建库要求而定, 一般包括: 档号、缩微号、密级、时间、作者、题名、文摘、文件类型、分类号、主题词、自由词、关联词、标题符号、立档单位等。
三、机读档案数据库的性能指标
(一) 数据收录的完备性
这是评价数据库质量的首要指标。数据库覆盖面的大小, 收录数据的完备程度, 关系到它是否能全面满足用户的检索要求,是取信于用户的基本前提。
(二) 数据的准确性
数据库中收录的数据是否准确可靠, 是保证档案检索系统检索效率的重要因素, 数据的任何差错如格式的不一致、字符的出入、拼写的失误, 对计算机处理和检索都有很大影响。尤其在数值型和事实型数据库中, 数据的不准确, 将会造成严重后果, 可能导致用户对数据库的彻底否定。
(三) 信息含量的充分性
指档案数据库揭示档案信息特征的充分程度, 如对一份档案著录项目的详细程度; 有无摘要; 摘要的详略如何; 标引深度的大小等。数据库的信息含量越充分, 就越有助于用户判断档案的价值及其切题程度, 从而帮助他们迅速准确地找到自己所需要的档案。
(四) 数据库的及时性
主要指一份档案从形成到纳入数据库之间的时差。如果用户先看到原始档案, 然后才从数据库中检索到该档案的有关信息,就会认为数据库提供的数据不及时。数据库的及时性对于现实效用较强的科技档案尤其重要, 数据库的时差越短, 其价值就越大。
(五) 数据库的成本效益
建立数据库需耗费大量的人力、物力, 租用或购买数据库的花费也不小。因此, 经济成本是衡量与选择数据库的重要指标,应尽可能用最低的成本达到较大的效益。计算数据库成本的指标包括每个字段、每条记录的平均费用, 每次检索、每条命中记录的平均费用等。