第一个问题实际上是如何认识和避免馆藏档案数字化的风险。馆藏档案数字化涉及一系列技术与理论问题,是一个探索性的工作。笔者虽不能笼统回答南阳市档案馆馆藏档案数字化工作会不会劳而无功,但可以肯定地说确实有一定的风险,尤其是在软件不到位的情况下风险会很大。从理论上讲,数字化流程的各个环节的等失当都可能给此项工作带来风险。但从实际工作看,数据质量决定着档案数字化工程的成败和效率,数据质量不过关是造成风险乃至劳而无功的主要原因。因此,确保数据质量是数字化工作成功的关键。鉴于我省的实际,笔者认为实施技术层面的标准统一是确保数据质量,避免或减少馆藏档案数字化工作风险的主要措施。
首先,档案馆在建立档案目录数据库时:一是严格按照《档案著录规则》的要求确定档案著录项,进行著录。二是所选定的数据格式应能直接或间接通过XML文档进行数据交换。三是采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查。
其次,档案馆在建立档案全文数据库时:一是应选择通用的数据格式。字型数据采用XML文档和RTF、TXT格式,扫描图像数据采用JPEG、TIFF格式,视频数据采用MPEG、AVI格式,音频数据采用MP3、WAV等格式。二是应选择合适的存贮方式。图像文件如果选用数据库存贮,则要求数据库服务器的存贮容量足够大;如果选用文件存贮,则应考虑存贮在文件服务器上文件的存贮规则和命名规则,以方便实现图像文件与目录数据库的检索。三是应选用专门开发的系统来实现。该系统必须符合《档案管理软件功能要求暂行规定》的要求,具备较强的数据独立性,确保在软、硬件环境发生变化时数据的完整、安全迁移及有效利用。
第二个问题实际上是如何实现档案数字化中形成的目录数据库与图像数据库的挂接。《纸质档案数字化技术规范》已对目录数据库与图像数据库的挂接提出明确的要求。国内的主流档案管理软件基本上都具有此项功能,相关技术已有重大突破并趋于成熟。目前,目录数据库与图像数据库的挂接一般采用两种方式实现:一是在档案条目信息录入的同时,进行相关文件的扫描(或数码拍照),并将扫描(或数码拍照)完的文件直接上传到FTP服务器。二是将档案条目信息的录入与原文的扫描(或数码拍照)分开进行,当条目信息录入完成且原文信息扫描(或数码拍照)完成后,可批量选择本地硬盘需要上传的图像文件上传到FTP服务器中。若要实现批量挂接,需提前对扫描形成的图像文件的命名规则进行定义。通常是以纸质档案目录数据库为依据,将每一件纸质档案文件扫描(或数码拍照)所得的一个或多个图像存储为一份图像文件。将图像文件存储到相应文件夹时,要认真核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同,图像文件的页数与档案目录数据库中该份文件的页数是否一致,图像文件的总数与目录数据库中文件的总数是否相同等。通过每一份图像文件的文件名与档案目录数据库中该份文件的档号的一致性和唯一性,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的批量挂接创造条件。
通过档案目录数据库与图像文件的挂接,系统就可初步实现对目标档案的全文检索,然而,从检索技术上讲全文检索还不止于此。真正意义上的全文检索,不仅应该构建功能完备的档案全文数据库,而且能够集成数据库检索技术、全文检索技术、图像内容检索技术以及数字化音频和视频信息的检索技术等。由于数字化档案要求必须与档案原件完全一致,然而目前的数字转换、识别技术又不能完全满足这一要求,因此,要实现数字档案全文检索,还有待技术的进一步发展。