网络档案计算机检索系统实现
(一)系统实现阶段解决的主要问题
系统实现也叫系统实施,通过这一阶段的工作最终实现检索系统。这一阶段主要的工作有以下几方面:
1.硬件:购买机器及辅助设备,购置机房设施。
2.人员:进行检索系统使用与维护人员的组织与培训。
3.数据:为网络档案计算机检索系统准备好准确、规范、适用的档案数据。这是档案工作人员在这一阶段和整个检索系统开发过程中最重要的工作。
4.软件:将软件的设计最终转换成计算机所能接受的程序。软件的实现包括两个阶段的工作:程序编写和测试。程序编写的质量直接影响到系统的测试、交付使用和维护工作,所以对它的质量要求不能忽视。编写出来的程序应当结构良好、简洁易读、符合设计要求。测试是指为了发现软件错误而进行的各种活动。实践表明在软件开发过程中即使人们考虑得再周密,程序设计工作再细致,也难免出现错误。测试工作即通过运行编写好的程序来发现错误,并排除这些错误,以保证软件的可靠性和质量。
(二)系统实现阶段的分工协作
在系统实现阶段,各类工作人员要明确职责,分工协作。一是系统分析员,主持整个系统的实现工作;二是程序设计员,选用开发工具,按照系统设计方案具体编写程序,实现设计思想。保证技术的先进性,保证技术方法的合理性;三是档案工作人员,对档案进行著录标引,为检索系统做数据准备;四是硬件维护人员,负责硬件购置和日常维护。在系统实现过程中,主要的程序设计与实现都由计算机技术人员来实现。档案工作人员除了进行数据准备工作外,还要参与对软件的测试工作。要不厌其烦地对软件进行仔细的测试,处理测试过程中出现的所有与档案专业相关的同题并提出改进意见,完善检索系统的功能。这个过程中必须实现档案工作人员与技术人员良好的沟通。在档案信息网络化建设过程中,系统的开发研制过程不是一条直线的过程,而是一个螺旋式上升的过程。设计、实现、测试、再设计、再实现、再测试、⋯ ⋯,这个过程往往要有几个回合的反复,系统的开发才能达到一个比较令人满意的水平。
(三)网络档案计算机检索系统的数据准备
数据是指对客观事物的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称。在计算机系统中对档案信息描述的结果就是形成了各种数据。
网络档案计算机检索系统的数据准备,就是上一节中讨论的“前处理”,即将传统档案文献用手工方式整理好,电子文件可以进行虚拟整序。按照检索系统的要求和确定的著录项目、著录格式对档案信息进行加工处理,使之成为检索系统可用的数据。这些数据包括档案目录信息、电子文件、多媒体文件等。然后使用检索软件将整理好的数据按一定格式输入数据库。电子文件与多媒体文件可以存入数据库,也可以仅在数据库中建立链接。
数据准备是计算机检索系统实现的基础和前提条件。计算机不具备人脑的思维能力,完全按照输入的提问词或其他标识进行机械“匹配”来命中检索结果。档案计算机检索系统的查全和查准质量完全取决于所用提问词及其组配关系。为了获得正确的提问词和检索策略,必须较好地进行数据准备。另外,各种纷繁芜杂的档案信息必须经过适当的取舍、加工、整序之后,才能构成虚拟的有序状态,才能在同一平台中进行提问与数据的匹配,才能为检索系统所用。可见,数据准备的质量如何,直接关系到检索系统的成败,影响检索系统的效率。
在数据准备工作中档案的著录标引是中心环节。档案著录标引是数据的获取手段和检索系统的入口,是提高检索系统科学性、实用性的关键。检索系统的科学性,就是科学地设计检索系统的结构体系,科学地进行著录标引,存储的信息量丰富,能从多途径查找,检索效率高。检索系统的实用性,是指编制任何一种检索工具,都应把质量和效益放在首位。档案信息检索系统要有良好的存储和检索功能,就必须使著录标引项目详细具体,具有完备、网罗性强、标引专指性高、能准确地揭示档案的外形和内容特征等。只有这样才能够帮助档案人员和利用者正确地了解档案信息的内容和价值,指引他们去检索所需要的信息。著录标引工作的任何差错,都将直接影响档案检索系统的质量,降低其效能,甚至会使其丧失应有的作用。尤其是要实现对电子文件的有效管理,不仅需要对其原件进行存储,同时也需要将电子文件(一次档案信息)加工成二次档案信息同时进行存储。这些二次档案信息用于描述电子文件的内容特征和外部特征,对电子文件进行详细、深刻的揭示。也就是说必须对电子文件进行著录标引得到相关数据,以便准确地揭示电子文件的主题内容、科学价值、物质形态、形成机构和存放地点,区别相互之间的异同,使得检索系统准确迅速地检出所需的电子文件。在目前的研究阶段,电子文件著录标引呈现一定程度的混乱现象:由于缺乏统一的标准,各档案机构所设想的著录方法各不相同,著录项目设置各异;同样的著录项目,由于理解不同,著录结果也有差异;符号代码混乱等。这些情况严重影响了网络档案计算机检索系统的质量,也是致使档案界的管理水平和信息检索能力远远落后于图书馆界、情报界的重要原因。
笔者认为,在档案信息网络化建设过程中,网络检索已有相对成熟的技术可供使用,我国档案界配备的计算机硬件及计算机应用水平并不落后,许多档案计算机检索系统的研发水平比较高。目前,限制网络档案计算机检索系统发展的瓶颈在于相应的档案基础工作做得不够,其中主要是检索系统的数据准备数量不充足、质量低下。
事实上,在档案手工管理阶段,我国档案管理中的基础工作尤其是整理工作相较于许多国家的同行做得扎实。但在现代化管理阶段,我国档案管理中的基础工作并没有向适应现代化发展的方向转变,仍然沿用老一套方法,导致档案信息化建设过程中,反而是基础工作做得不够。对我国档案工作来说,开发档案计算机检索系统中的重头戏,是需要对大量的档案再度鉴定、整理、著录,做到统一数据处理标准、著录内容完整翔实。但是,目前不少档案机构对于数据准备工作的意义认识不足,导致开发的档案计算机检索系统有的著录标引项目不全,有的没有进行规范控制,有的为追求建库速度搞突击,著录标引数据项简之又简,有的甚至根本未作著录标引,仅根据原有的登记簿录入。尤其是在电子文件出现之后,由于其信息与载体的可分离性使得档案不再是看得见、摸得着的物质实体,要对其实行有效管理就要更准确地进行更详细的著录,而我国对电子文件著录标准与著录格式鲜有研究,难于对其实现有效的管理。凡此种种,造成我国网络档案计算机检索系统的数据量少质差,严重影响了检索效率。许多网络档案计算机检索系统投入使用后,没有相应的数据可供检索,许多检索要求仍要依靠老方法进行手工检索,失去了网络检索和计算机检索存在的意义,造成人、财、物的浪费。笔者认为数据质量低下的检索系统还不如没有检索系统。
当然,对于一个个体的档案机构来说,检索系统的数据准备工作是一项复杂而浩大的工程。这项工程决不是一蹴而就的,而是一个长期的、逐步积累的过程。
以现代化管理水平较高的美国为例。美国档案部门采用自动化系统较早,机读档案目录信息长年积累,数量达到相当高的比率,有些档案馆甚至达到100%。即使这样,他们在建设档案网站时,仍花费了相当长的时间,投入大量人力、物力,进行数据准备工作。美国国家档案与文件署网站建设,从1996年7月至1999年10月初步竣工,投入人力达几百人。其中档案工作人员的工作十分枯燥,每天做大量的信息著录等数据处理工作。即使这样,目前其网络档案信息检索系统的数据覆盖率还较低,该机构计划是到2007年,将95%的现存档案信息录入数据库。再如美国史密森纳研究院档案馆,由于实现了计算机自动化检索,该馆特别注重对档案的著录工作。他们接收档案进馆后基本上不做什么整理工作,而是利用编目检索系统,采取灵活实用的原则对进馆档案进行详细的著录标引。该馆档案工作人员工作重点主要就是研究怎样做索引、怎样著录标引,以保证每份进馆档案在计算机检索系统中都能检索到。著录标引工作非常精细,有专人负责对接收的每份文件进行著录,有专人校对检查。
在我国档案管理工作中,没有为档案计算机检索系统做过大规模的基础工作,加之档案管理规范化未得到全面贯彻落实,没有相应的体制保障和资金投入,导致我国不少档案馆,尤其是历史档案较多的档案馆仍有一定比例的档案至今未做到有目可查。基础工作不完善已成为档案信息化建设的严重障碍。近年来,国家档案行政管理部门已经意识到档案基础工作薄弱的现状,业已开始加大档案基础工作建设力度。目前一些档案机构的数据准备工作已经进入了初步积累阶段。在这个阶段必须有清醒的认识,一方面要研究和完善标准,依据标准脚踏实地地做好数据准备工作,确保数据质量。使得检索系统不仅满足当前工作需要还可以适应未来发展需要,在未来具有一定的发展空间。另一方面,要认识到这项工作在短期内可能无法从根本上解决问题,目前所要做的就是开始逐步积累数据。但这种积累必须划分发展阶段制定严格可执行的目标,争取在最短的时间内完善数据准备工作,使档案计算机检索系统达到可用,继而为档案信息化建设奠定良好的工作基础。
以解放军档案馆档案目录数据的积累为例。该馆档案目录数据的积累始于1987年该馆档案自动化管理工作,历经十余年的时光,迄今档案目录数据达到一百多万条。1987年,该馆在PDP11/24计算机上开发研制了《档案管理自动化系统》,用“北极星”微机联机输入了档案目录数据一万条,并同时做好了与目录数据相关的档案存放工作。随后,全军开始建设“军档工程”,推广使用统一的档案管理软件。各机关档案室统一使用《公文档案信息网络系统》,将多数文件资料的目录数据录入数据库,有些已通过系统加工整理形成了档案数据。这些数据符合军队标准,在档案交接时同时转入档案馆存储和使用。另外,解放军档案馆开发使用的作为“军档工程”之一的《军队档案馆文献信息管理网络系统》,还确保了两个系统中档案目录数据的通用性,即保证从档案室公文系统中输出到档案馆的数据非常方便地流入到档案馆系统的相应数据库中。省去了许多烦琐的数据转换处理,节约了许多时间。此外,《军队档案馆文献信息管理网络系统》建立了对应的数据表,把过去用Dbase、FOXbase等小型数据库系统录入的档案目录数据,转换至全军统一的ORACLE数据库中,一举解决了过去十余年馆内外脱机输入的档案目录数据的转换问题,取得了良好的效果。在解放军档案馆,从早期的PDP11/24计算机上的《档案管理自动化系统》到现在的《军队档案馆文献信息管理网络系统》,从最早的一万条档案目录试验数据到现在已录入的一百多万条标准档案目录数据,标志着其档案自动化管理工作已经进入了应用阶段。
解放军档案馆档案目录数据积累的实践给我们很多启示。笔者认为最重要的有两点:一是注意数据处理的连续性和延续性,该馆是经过十几年的积累才达到今天的规模;二是注意数据处理的继承性或适应性。随着计算机技术、数据库技术以及网络技术的发展,档案目录数据的格式也处在不断变化之中。要使数据与新系统、新环境的要求相适应,就必须解决好数据标准化问题和数据格式的更新换代问题。