电子文件元数据分类与方案设计对策研究
中国档案 田雷
北京市档案局于2014年承担了国家档案局科技项目“电子文件元数据分类与方案设计对策研究”课题,形成了电子文件和电子档案元数据两分法(即对象元数据和事件元数据)的管理理论和《北京市电子文件和电子档案元数据分类方案》等重要研究成果。该课题于2015年12月通过了国家档案局鉴定委员会的评审。鉴定委员会认为,该课题的科研成果具有较高理论价值,对北京市电子文件和电子档案元数据管理以及数字档案馆建设实践具有指导作用,对其他地方相关工作的开展也有参考借鉴意义,其科研成果具有较强的可操作性,对推进电子文件和电子档案元数据相关标准规范的制定和实施具有重要参考价值。该课题荣获2016年度国家档案局优秀科技成果二等奖。
研究内容
根据调研已有的标准和学术研究项目来看,对于电子文件和电子档案元数据的分类研究表现出以下3个特点:一是概念涉及内容范围广;二是电子文件和电子档案元数据的种类和层级繁多;三是电子文件和电子档案元数据随着保管和利用而不断增加。可以说,现有成果对于电子档案真实性、凭证性保障及长期保存有效利用并不都是最佳选择。设计电子文件和电子档案元数据的最佳分类方案是关于电子文件和电子档案元数据研究的重点和关键。北京市档案局根据北京市电子文件和电子档案管理的基本现状,专题攻关电子文件和电子档案的元数据分类方法,以及各类型电子文件和电子档案的元数据项最优集合,破解当前元数据分类不够清晰、项目繁杂难以落地执行的难题。
该课题设计并构建了“对象元数据”和“事件元数据”两分法,探索设计了当前常见的文本类、图像类、影像类、声音类电子文件和电子档案的对象元数据项和事件元数据项,形成了重要的科研成果《北京市电子文件和电子档案元数据分类方案》。方案统一了国内电子文件和电子档案元数据在分类方法和管理模式上的争议,填补了图像类、影像类和声音类3类电子文件和电子档案元数据方案的空白,优化了《文书类电子文件元数据方案》(DA/T 46)在实践中存在执行不便的元数据项选择。
1.元数据两分法基础理论研究
元数据是电子文件和电子档案管理工作重心之一,这是毋庸置疑的。目前,国内档案界对元数据的概念边界、分类思路、管理方法等方面的认知和理论并不统一,各地区的具体实践也各有特点。如何科学设计和解释电子文件和电子档案元数据的基础理论,逐步形成统一的理论体系和一致的认知,进而快速推动电子文件和电子档案管理工作又好又快发展,是我国档案界当前一项重要的工作。
在课题组组长陶水龙发表的《电子档案元数据分开管理研究》论文的指导下,课题明确了对象元数据和事件元数据的两分法,界定了它们的概念与主要作用。
(1)对象元数据
对象元数据是指电子文件形成过程中产生的,由信息系统自动生成且不可人工干预的,直接关系电子文件和电子档案凭证性的元数据项,对象元数据应封装在电子档案身份证中。
可以看出,①对象元数据的基本特征:是电子文件形成过程中产生的,由信息系统自动生成且不可人工干预的元数据项;②对象元数据的核心功用:直接关系电子文件和电子档案的凭证价值和真实性,在这里谈到的凭证价值和真实性主要聚焦在文件的依法合规问题;③对象元数据的管理原则:封装在电子档案身份证中,与电子档案身份证一体化管理。
(2)事件元数据
事件元数据是指电子文件归档和电子档案管理过程中产生的,对电子档案溯源起重要作用的,由信息系统自动生成或人工录入的元数据项,事件元数据以结构化的数据形式存储在数据库中,并通过电子档案目录与电子档案的内容信息和电子档案身份证进行有效关联。
可以看出,①事件元数据的基本特征:是电子文件归档和电子档案管理过程中产生的,由信息系统自动生成或人工录入的元数据项,事件元数据的产生阶段和允许由人工干预是其与对象元数据最主要的特征区别;②事件元数据的核心功用:对电子档案溯源起重要作用,这就意味着事件元数据的选择不应聚焦那些对电子文件和电子档案起到凭证性保护作用的项目;③事件元数据的管理原则:以结构化的数据形式存储在数据库中,并通过电子档案目录与电子档案的内容信息和电子档案身份证进行有效关联,为了避免电子档案身份证在元数据不断增加的管理过程中重复封装,事件元数据采取在数据库中单独管理并与电子文件和电子档案内容信息挂接的管理方式,不再做封装一体化管理。
2.元数据分类方案设计
(1)分类方案支持更多的数据类型
《文书类电子文件元数据方案》(DA/T 46)仅仅局限于文书类电子文件的元数据。鉴于目前我国党政机关公文处理的特点,能够通过信息系统正式签发文书类电子文件的单位并不多,因而当前产生的真正意义的电子文件和电子档案可能更多地集中在图像、影像和声音等部分,DA/T 46并未覆盖这三部分的电子文件和电子档案,所以各地区在实践中往往使用内部暂定的元数据方案执行。
课题明确了电子文件和电子档案元数据分类方案的边界,形成了重要的科研成果《北京市电子文件和电子档案元数据分类方案》。元数据分类方案分别按照文本类、图像类、影像类和声音类4大常见类型的电子文件和电子档案进行了元数据的方案设计。
(2)分类方案的设计更加易于落地
《文书类电子文件元数据方案》(DA/T 46)中罗列了88项文书类电子文件所需要留存的元数据项,涵盖了电子文件形成阶段、电子文件归档阶段、电子档案在档案室的管理阶段、电子档案移交接收阶段和电子档案在档案馆的管理阶段等电子文件和电子档案全生命周期的5个主要阶段。但在国内各地区的实践过程中,普遍反馈DA/T 46的执行存在一些不便之处,有些是因为各党政机关和国有企事业单位信息系统先于该标准建设完成,如严格按标准执行会出现地区性的信息系统二次开发行为,总体成本投入巨大,档案行政管理部门难以硬性推动;还有一些是因为在深入研究DA/T 46之后,结合本地区、本单位、本系统、本行业实际,认为其中的某些必选和可选项目并不会实际产生,或并没有保存的必要。
基于元数据的两分法理论,《北京市电子文件和电子档案元数据分类方案》在设计过程中充分考虑可操作性、便于执行性和科学合理性,力争使其具备更好的易用性。其中,文本类对象元数据共计22项、图像类对象元数据共计23项、影像类对象元数据共计19项、声音类对象元数据共计7项;文本类、图像类、影像类、声音类事件元数据共计14项;必选的元数据项总计约40项、可选的元数据项总计约39项,新定义了一般为可选、在特定条件下为必选的元数据项总计约7项。
在课题研究过程中,注重联系实际,将《北京市电子文件和电子档案元数据分类方案》纳入北京数字档案馆(北京电子文件中心)项目建设体系进行验证,并作为项目建设所需遵循的核心制度使用,为项目建设提供设计蓝图。
主要创新
1.理论创新
该课题首创性地提出了电子文件和电子档案元数据按两分法(即对象元数据、事件元数据)进行分开管理的基础理论,结合电子文件和电子档案管理的特点、联系北京数字档案馆(北京电子文件中心)项目建设实际,提出了对象元数据和事件元数据的核心功用和管理原则。
2.全面性创新
该课题的研究成果《北京市电子文件和电子档案元数据分类方案》充分考虑电子文件和电子档案的形成和管理现状,对文本类、图像类、影像类和声音类4类最常见的电子文件和电子档案进行了深入分析,结合各类型电子文件和电子档案的形成环境、技术特点,分别梳理了特点鲜明、专业对口的对象元数据和事件元数据项,使《北京市电子文件和电子档案元数据分类方案》覆盖了目前党政机关和国有企事业单位普遍形成的主要电子文件和电子档案的类型,方案的指导性更强、参考意义更大。
3.实践创新
该课题根据对北京市和各区档案移交单位、市和区档案馆现行信息系统的调研结果,充分考虑《北京市电子文件和电子档案元数据分类方案》的可操作性、便于执行性和科学合理性,在保障元数据项可充分表达对象元数据、事件元数据含义时,对元数据项进行了合理优化,最终选定的项目既满足现行信息系统的基本现状,又兼顾未来一段时期的发展需要,降低了各单位信息系统的改造量,使《北京市电子文件和电子档案元数据分类方案》在实际工作中更易于落地,也更易于被文件和档案管理人员及技术人员所接受。
应用前景
该课题通过调研国内外电子文件和电子档案元数据的研究和使用情况,分析并提出科学的电子文件和电子档案元数据分类方法及元数据项选取标准,并将研究成果《北京市电子文件和电子档案元数据分类方案》运用到北京市电子文件和电子档案管理工作以及北京数字档案馆(北京电子文件中心)建设项目中,为全市各级电子文件形成单位和国家综合档案馆提供电子文件和电子档案元数据管理的规范化支撑。
课题研究成果有望引领北京市电子文件和电子档案元数据管理工作迈入科学化、规范化的管理阶段,并引导北京市电子文件管理联席会议、各级档案移交单位和各级国家综合档案馆在政策制定、发展规划、信息系统建设等方面逐步进入一个良性的可持续发展时期。课题研究成果对北京市的实际工作具有极强的指导意义,同时对其他地区开展电子文件和电子档案元数据管理工作具有参考价值,在国内具有较大的普遍适应性和借鉴意义。
作者单位:北京2022年冬奥会和冬残奥会组织委员会、北京市档案局