明清档案“数转模”问题的审视与思考
中国档案 王海欧
随着信息技术的飞速发展,档案管理工作开始全方位进入数字化时代,与此同时也面临着数字档案的长期保存问题。目前业内人士关注的焦点主要集中在存储介质的选定与存储介质之间的技术转换方面。在档案行政管理部门着力强调异质备份工作的前提下,传统历史档案的“数转模”成为当前形势下的务实解决方案,无论从理论层面还是实践层面都应予以认真研究,并提上议事日程。本文结合中国第一历史档案馆(以下简称“一史馆”)明清档案的管理实践,就明清档案数字化加工项目中的“数转模”问题作一简要审视与阐述。
确保数字化信息长期保存的有效性
档案管理兼具保护与利用两大目标任务。一史馆以其丰富的明清档案资源,在档案保护与利用过程中始终走在同行的前列。早在1973年,一史馆就开始引入缩微技术,缩微胶片作为明清档案保存与利用的有效载体在馆藏档案管理工作中得到了极好的应用。步入90年代后,随着我国计算机的全面性普及和网络技术的发展,社会信息的传递方式也随之改变。一史馆顺应时代要求,采用“模转数”即先缩微后数字化的方式对档案加以有效管理。如今,随着光盘、硬盘、磁盘阵列等多种载体的相继出现,“数转模”技术走向档案数字化前沿,一史馆也逐步进入到明清档案管理的多介质存储时代。
2010年11月,一史馆制定了《档案整理和数字化工作方案》,并于2011年正式启动档案整理数字化工作,同时逐步推进档案数字化和缩微工作。截至2015年2月,一史馆已完成文件级馆藏目录900余万条,完成档案数字化519万件,生成档案数字图像5480余万画幅。为了及时将数字化成果提供社会公众利用,从2012年开始,一史馆连续4年在馆内信息利用平台推出已经完成数字化并对外开放的馆藏档案史料,主要有:2012年,内阁北大移交题本29054件453514画幅;2013年,军机处满文录副奏折、内阁吏科题本、内务府奏销档档案422517件4503296画幅;2014年,宪政编查馆、修订法律馆和京师高等审判厅检察厅3个全宗档案5103件25468画幅;2015年,内阁满文题本80479件1198603画幅。再加之2011年以前的数字化档案1548085件,一史馆馆藏档案利用查询系统共对外开放利用数字化档案现已达到210万件2569万画幅。目前馆藏档案数字化资源已经突破5PB,而档案数字资源存储及备份总量也已超过3PB,这既为保护及利用明清历史档案奠定了坚实的基础,同时又使如何保存和利用好如此海量的档案数字信息成为一个新的重大问题和关注点。
历史档案文献的永久保存一直以来都是档案工作的重要内容,数字化时代也不例外。美国国家档案管理机构曾邀请权威单位确定档案的最佳保护介质,数十位专家对磁性介质、光盘、电子文档、纸张、胶片5种常用的介质进行论证,最后结论是纸张和缩微胶片最适宜文献的长期保存,建议用缩微胶片或纸张复制文献,以达到永久保存的目的。2009年10月,国家档案局颁布《数字档案信息输出到缩微胶片上的规定》,规定了数字档案信息输出到16mm和35mm 卷式黑白缩微胶片上的一般要求。按此“规定”要求,将数字档案信息输出制作为缩微胶片进行长期异质保存,可保证档案得以科学、有效的保护。
确保档案内容信息的法律认可性
“数转模”全称为数字影像转换成模拟影像(Computer Output Microfilm),业内人士亦称“数转胶”,即利用光学原理将数字信息转移到缩微胶片上,从而实现数字资源长期保存的技术。“数转模”的应用目标仍然是将缩微胶片长期保存的优点与数字信息方便利用的优点相结合,以确保数字化文献信息安全有效。与传统缩微技术所产生的缩微胶片不同,这种经过从“数”到“模”的转换所产生的缩微品,其内容的真实性及其法律凭证地位即法律认可性问题便凸显出来。
无论是纸质档案,还是采用缩微摄影技术直接拍摄纸质档案所生成的缩微品,其内容的真实性及法律地位不言而喻,若自身法律性的不足往往会丧失其档案本身应具有的效力。缩微摄影技术在我国80年代文献抢救工作中发挥了巨大作用,究其根本原因是因为缩微技术使用后档案信息的真实性及其法律凭证地位起到了决定性作用。1990年10月发布的《中华人民共和国档案法实施办法》明确规定:“各级各类档案馆提供社会利用的档案,应当逐步实现以缩微品代替原件。档案缩微品和其他复制形式的档案载有档案收藏单位法定代表人的签名或者印章标记的,具有与档案原件同等的效力。”一史馆从20世纪70年代开始使用缩微技术拍摄馆藏档案,截至目前共有缩微品(母片)1.5万余盘、拷贝片3万余盘可提供利用,并规定凡有缩微复制件的档案,一律用缩微品代替原件使用。
数字时代计算机环境下直接生成的电子文件,以及将传统档案数字化后产生的数字信息,其档案内容的真实性与法律凭证地位则是不能确定的。在此条件下,通过“数转模”技术转换后形成的缩微品,尽管与传统缩微品一样是档案缩微品,但因其档案原件是电子文件档案而非纸质档案本身,因此,通过“数转模”形成的档案信息内容是否具有真实性与法律凭证地位至今仍在讨论中。国标《缩微摄影技术缩微品的法律认可性》(GB/Z 20650 — 2006)主要是针对缩微品信息的法律认可性问题提出了缩微品制作应遵循的程序和建议,指出如果遵循该程序和建议,缩微品副本可代替原件,并起到与原件相同的作用。
确保输出缩微胶片档案数字信息的完整性
通过“数转模”技术转换后形成的缩微品,因在转换过程中信息易发生丢失现象而造成缩微品的档案数字信息不完整。由于转换后缩微品是利用扫描产生的数字图像经COM技术制作而成,而这个转换过程需要经过图像扫描、格式转化、缩微品输出、拷贝冲洗等多个环节,每个环节自然都有可能出现数字信息丢失问题。比如,就图像扫描而言,常规采用的OCR扫描输入技术,其平均识别率仅为95%;就缩微胶片的材质而言,其背景密度及解像力的大小也影响缩微胶片上信息的完整性。更重要的是,由于明清档案原件字体的大小、字迹颜色、纸张材料及薄厚程度的不同等,如深红色背景黑色字迹,淡黄色背景红色字迹,颜色较浅字迹,以及红、蓝色字迹等因素,会对输出到缩微胶片上信息的清晰度及完整性产生相当大程度的影响,进而造成档案信息丢失。为避免上述因素造成的缩微品档案数字信息不完整,就需要加强对胶片的检查力度。
相伴发生的另一种情况是,传统纸质档案数字化过程中,会产生一些新增加的技术参数信息(如色卡、备考表、装具及标识符号等)。一史馆在对馆藏内阁-满文实录、内阁-满文起居注、内务府-满文杂件、宫中-满文档案、理藩部档案进行数字化加工过程中,扫描档案信息约305万画幅。其中新增加的技术参数信息约占40万画幅,即不属于传统纸质档案内容的技术性信息标识影像占档案总画幅的13.1%。在“数转模”过程中这些技术参数信息理应随着档案主体的数字信息一起转换成缩微胶片进行保存,否则,一旦档案主体的数字信息发生丢失,当需要借助“模转数”技术手段再次将模拟信息转换为数字信息时,整个“模转数”过程因缺乏这些技术参数信息而无法得以实现。
“档案数字化工作的生命线在于其能够保持档案原貌。”一史馆馆藏明清档案,时间跨度近300年,所保存的明清两代中央国家机关及皇室档案的文献史料具有珍贵的保存与利用价值。“数转模”的主要目的之一就是能够真实地将档案信息长期保存下来,因此不仅要求对数字信息“原汁原味”地进行转换,同时在质量标准上要求转换后的缩微品与传统缩微品质量无差别,在图像检查方面要求对画幅逐一进行核对检查,以确保输出缩微胶片档案数字信息的完整性。
选择技术转换过程中的格式最优性
为规范档案数字化工作,加快推进档案数字化进程,2010年10月,一史馆确定了数字化图像的主要技术参数:图像文件格式为TIFF,全彩色(RGB)、24bit真彩色输出,分辨率不低于300dpi,单页档案尺寸不超过A3尺寸标准画幅,且为100%原大尺寸扫描。对于归档备份数据,采用多套多介质的备份机制,扫描图像存储采用TIFF、JPEG(按原始TIFF格式图像转换、优化,压缩率为50%)以及无损压缩JPEG2000(按原始TIFF格式图像直接转换)3种格式。究竟应采用哪种格式对电子文档进行转换,需要作以下简单的分析比较。
TIFF(Tagged Image File Format)图像文件格式是一种比较灵活的图像格式,主要用来保存包括照片和艺术图等图像文件,特别是用于对图像质量要求较高的图像存储与转换。TIFF图像文件格式具有图形格式复杂、存贮信息多的优点。
JPEG(Joint Photographic Experts Group) 图像文件格式是一种最常用的有损压缩图像文件格式,其最大优点是利用有损压缩的方式去除冗余的图像数据,即在获得极高压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。当然,压缩比的大小直接影响着图像的清晰度。压缩比越大,图像品质就越低;反之,压缩比越小,图像品质就越好。
JPEG2000图像文件格式作为JPEG的升级版,支持有损和无损压缩。其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰逐渐显示。JPEG2000有很大的技术优势,压缩率比JPEG高约30%左右,压缩性能却可以提高20%以上。
由于明清档案年代久远,不少档案因或霉烂变质,或水浸、残破、虫蛀,或字迹不清、图章压字等原因,造成原件状况较为复杂,当被压缩的图像有大片近似颜色时,特别是在转换时采用JPEG图像文件格式是按原始TIFF格式图像转换、优化,且压缩率为50%时,就有可能会出现马赛克现象,甚至信息丢失。JPEG2000图像文件格式是按原始TIFF格式图像直接转换而来,但经过转换后得来的数据毕竟不是元数据,其真实性恐遭质疑。另外,在扫描簿册类档案时,由于摆放档案的位置不同,档案信息需要正反两个方向进行扫描,如对馆藏内阁-满文实录、内阁-满文起居注2类档案扫描的1739卷273万画幅中,反向扫描的档案信息就占52万画幅,占档案总画幅数的19%。按照原始TIFF图像文件格式进行转换,虽然给胶片的质量检查带来不便,但为了真实地再现档案原貌,选择TIFF图像文件格式进行转换是最佳的方式。
确保资金投入边际效益最大化
如何做到数字信息长期有效保存、防止数字化介质存储的档案信息不丢失,就需要不断地投入大量资金用以维持维护管理工作的正常运转,因此需要考虑资金投入的边际效益最大化问题。
首先,数字信息安全的维护及日常使用需要持续不断的资金投入。其次,更新设备和软件需要花费大量的资金,且每隔几年就要投入一次。第三,数字信息迁移转录的费用也是相当可观和不可预知的。国家档案局规定对于每年征收到档案部门归档入馆和登记备份的以光盘和硬盘等为存储介质的电子档案约1000件以上的,要求对档案数据进行 2 年/次的检测和4~5年/次的再备份。由此产生的离线存储档案数据量及管理费用是相对可观的。这些工作都需要有强大的经济实力做支撑。
如何确保资金投入边际效益最大化?“数转模”无疑是最佳的选择。应该清楚的是,相当长一段时间内,我们不可能将所有已经数字化的档案信息通过“数转模”技术全部转换为缩微胶片,务实的策略是分期分批、有步骤有计划地逐步进行存储介质的转换,优先考虑对具有重要史料价值及重点项目的档案优先进行“数转模”转换,以确保数据完整不丢失。当完成一批数据转换后,就可以不必再投入资金进行数据的迁移或转录,且一旦将来数字化介质存储的数据不慎丢失,还可以利用“模转数”技术,将模拟信息转换成数字信息再利用,这样缩微胶片既是永久保存的介质,又是数字信息出现丢失或损坏时的备份转换介质。
总之,使用缩微胶片保存重要的史料文献是世界上进行档案长期保存的最理想方式,在其长期的发展过程中,国际标准化组织ISO/TC171文献影像应用技术委员会以及我国文献影像技术标准化技术委员会及相关行业,相继系统地制定了缩微技术的国际及国内标准。鉴于数字技术在档案保护中的缺陷,档案保护还应主要立足于缩微技术,即便是对原档全部进行数字化处理后,仍需要对这些数字化产品进行由“数”到“模”的转换与处理,利用数字存档系列产品及相应的软件系统,实现缩微胶片和数字光盘的优势互补。
参考文献:
1.中国第一历史档案馆.明清档案事业九十年.人民出版社,2016.
2.中国第一历史档案馆.明清档案与历史研究论文集.中国文史出版社,2015.
3.管先海.档案馆数字档案信息保存技术思考.档案管理,2010(4).
4.王小林.国内外图书馆数字资源的长期保存探讨.数字与缩微影像,2010(3).
5.郎玉林.数字信息长期保存政策的宏观思考.兰台世界,2010(7).
6.熊燕.数字资源长期保存的策略研究.农业图书情报学刊,2010(4).
作者单位:中国第一历史档案馆