——以美国密歇根大学本特利历史图书馆开发的AutoPro为例
由美国密歇根大学董事会在1935年建立的本特利历史图书馆是密歇根大学的官方档案馆,它还保存着密歇根州的历史、人民的各种活动、组织和志愿协会等的历史记录。自1997年接收时任大学校长詹姆斯·杜德施塔特的数字桌面后,该图书馆一直在成功地管理和保存数字馆藏。鉴于近年来图书馆接收的原生数字内容和数字化产生的内容剧增,档案工作者寻求更加高效、标准化的处理流程。由安德鲁·W·梅隆基金会资助的MeMail项目(2010-2011)为图书馆提供了建立工作流及对应策略的资源,用于接收和处理归档的电子邮件。但是,对于混合数字内容(例如office文档、PDF、音视频文件、图像等),同样需要一个与此类似的解决方案。数字保管部门的档案工作者们把MeMail项目继续推进,开发了数字内容自动化处理工具,又称AutoPro。它由一系列相互独立计算机脚本构成,这些脚本实现了数字内容长期保存、访问时,在准备工作中关键步骤的自动化操作。
数字内容处理是概念也是方法
除了要保证内容的真实性、完整性和安全性外,数字时代的档案处理还需要鉴定、整理和著录等传统的步骤。因此,“数字内容处理”对应于开放档案信息系统(OAIS)参考模型的摄取模块的产生存档信息包(AIP)功能。在给一个提交信息包(SIP)指派一个接收记录后,数字内容处理功能允许档案工作者实施智能控制、建立内容资料的完整性,并进行数据长期保存所需的各种工作。例如,扫描病毒与个人身份信息,将数据转换成保存所需的格式,记录描述性和技术性的元数据等。最初,本特利历史图书馆的档案工作者开发了一个手工操作的工作流,其中包含了40多个环节。完成这些环节需要人工操作大量不同的、独立的应用程序与软件存储工具,输出各种不同的日志文件。由于此项工作具有高度劳动密集的特点,可能出现人工操作错误的机会。此外,这种实现方式对于没有技术专长的工作人员是困难的。鉴于这些挑战,数字内容保管部门开发了AutoPro来实现两个目标:通过实现关键工作流环节的自动化操作让数字内容处理更加有效;减少技术上的障碍,从而让档案工作人员能够将精力集中于鉴定、整理、著录这些传统的档案职能。
自动化处理概述
AutoPro由33个windows命令行脚本组成,它把待处理的数字内容提交至11个环节的工作流进行处理,从而简化了要操作20多个应用软件与命令行程序的原有处理流程。除了为档案工作者提供一个指引完成工作流的框架,AutoPro还会为所有操作生成日志文件,并记录保存元数据,档案工作者必须审核每一个步骤是否成功完成。
在数字内容被接收并保存至本特利图书馆的临时库后,AutoPro会立即对其进行病毒检测并创建一个备份,使其在出现错误或故障造成的数据丢失后提交的信息包数据可以被恢复。
AutoPro随后会查找数据中的归档压缩包文件;当发现此类压缩包文件后,一个脚本会调用解压软件将压缩包文件的内容解压缩至一个由其文件名命名的目录内,并保持压缩包文件内部原有目录结构不变。在检验解压缩结果并确认解压成功后,AutoPro会将原有的压缩包文件移动到一个分开的目录,并在日志文件中记录操作过程。若需要时,还会在压缩包文件被释放的目录中从被解压的内容中查找额外的压缩包文件。
在这一阶段,AutoPro将会使用文件重命名工具将文件名与目录名中的空格、非字母非数字的字符(不是0-9、a-z或A-Z的特殊字符)用下划线代替,并将这些目录与文件的原有名称与新名称记录至逗号分隔值文件(.CSV文件)。接下来,AutoPro会查找文件名中无扩展名的文件或扩展名由用户定义的文件,使用基于检查二进制签名的来确定文件类型的工具程序,查证这些文件的正确文件名,并使用文件验证工具校验查证的结果。AutoPro会将包含一个基于二进制签名库的目标可能是何种类型的文件的报告输出保存至日志文件。当一个文件扩展名被成功地查证确认后,原有文件名与新文件名会被记录至.CSV文件中。
基于美国国会图书馆在“数字格式的可持续性”项目上的工作与佛罗里达图书馆自动化中心及其他同行机构的文档,本特利历史图书馆确定了“有风险的”(即专用格式或潜在过时的格式)文件格式,并使用多种开源或免费软件工具研发了将其转换为“可持续的”格式的方法。这些转换后用于保存的文件会与原始格式文件一起存储。同时,AutoPro也为所有文件转换操作建立一个日志,其中包含原有的和转换后的文件名、时间戳、转换所用的软件。
为了保护档案记录的作者身份并防止身份被暴露的风险,本特利历史图书馆已经制定了有关个人身份信息(PII)如信用卡号与美国社会保障号等的政策。因此,AutoPro使用一个识别潜在敏感信息的专用软件来扫描PII信息。档案工作者随后在身份查找界面来验证搜索结果。若发现结果中确实有此类信息,会编辑PII信息或为记录内容指定恰当的访问限制。
档案工作者开始对数据内容进行更深入的鉴定和整理。为了撰写检索工具中对数据的描述,AutoPro会调用磁盘与文件管理软件,可以直观可视化显示文件与目录的大小、类型等各种信息,通过可视化方式将数据的各种属性(如文件扩展名的分布、日期的范围、目录的大小等等)更好地描述出来,并启动文件浏览软件来检阅这些文件类型分布广泛的数据。在使用文件浏览器来检阅数据内容时,档案工作者使用单击鼠标右键弹出的上下文菜单即可调用的一个批处理脚本来将多余的文件或文件夹移动到分开的目录中。这些努力都是为了保留数据资料的原有顺序结构,但档案工作者可能会将处于目录中和zip压缩包文件中的无组织的散乱数据重组整合来简化存储的管理(操作会被记录至日志文件中)。当数据被重组整合后,AutoPro调用文件校验工具抽取技术性元数据,并对所有的数据内容生成校验码。档案工作者随后使用AutoPro来标识系列,并添加关于数据的描述性元数据和管理元数据;由此形成的XML文件被用在“深蓝”中保存不受限的数据。“深蓝”是本特利历史图书馆基于一个开源软件创建的数字档案库,用于创建存储数字内容且开放访问的学术性或用于发布的数字知识库。AutoPro使用是一个由国会图书馆开发的、开源的传送软件工具集合的一部分,以此将所有数据的一份备份传送到一个用于备份的、安全的数字档案库之中。当此步骤完成后,AutoPro会清理处理过程中的目录和临时文件,档案工作者会在本特利的收集管理数据库中将记录完成的数字内容进行归档。
(本文作者为密歇根大学本特利历史图书馆管理部首席档案员迈克尔·沙尔克罗斯及南希·德罗梅迪)
原载于《中国档案报》2016年11月17日 总第2991期 第三版