上海大学档案馆徐忠勇
数字化档案信息是随着计算机网络技术、数据库技术以及多媒体技术的发展而产生的一种新型档案信息形态,它把分散于不同载体、不同地理位置的档案信息资源以数字化的形式存贮,以网络化的方式互相连接,从而提供及时利用,实现档案信息的资源共享,数字化档案信息的出现给现有的档案工作带来新的挑战和机遇。
传统档案信息一般是纸质载体为主,以案卷(卷、册)形式存放在档案库房中,以案卷和文件级目录为检索目标,手工和计算机检索为手段,费时、一次检索成功率低,存储档案的物理空间浩大,维护起来耗时耗力,备份、复制档案需耗费大量的人力、财力,从而档案完整性、一致性得不到保障。而档案信息数字化就是把纸质档案通过扫描、录入等方式把档案内容著录到计算机数据库中,以计算机技术能识别的存储档案信息。档案信息数字化的主要优势在于检索快捷方便、容易实时同步备份、存储空间小,维护方便、安全,保护了珍贵原始档案。所以档案信息数字化,就是将不同载体形态、不同记录方式的档案信息通过计算机录入(档案两级目录在档案管理信息系统著录)、电子扫描(档案实体文件的图像扫描)、数据库格式转化、电子数据的整理(存贮与刻录)等形式,把档案中的文字、图像、声音等信息转成计算机数字识别形式,形成可供人们保管、利用与档案原件存贮信息真实一样的数字化的档案信息库。
一、档案信息现代化管理的发展历程
纵观档案信息现代化管理发展历程,主要经历了两次质的飞跃:第一次,二十世纪八十年代开始,档案信息目录实现计算机检索,建立可供计算机检索的档案信息目录数据库(包括案卷级和文件级目录)是档案管理现代化的第一次飞跃。第二次,从二十一世纪初开始,档案信息数字化的管理与利用,即通过对档案信息的电子扫描,建立档案信息图像文件数据库,运用档案管理信息系统并结合计算机网络通信技术,使人们无论到馆查阅,还是异地网络浏览,都可以做到在授权范围内实现档案信息全文查阅。这是档案信息管理现代化的第二次飞跃。
第一次档案信息现代化管理发展的飞跃,实质是从传统的手工管理向计算机数据库管理的转变,其关键技术是依托计算机数据库和通信技术,结合档案管理工作中可遵循的规律性以及国家在档案管理工作方面制订的一系列工作规范标准应运而生,其特点在于以计算机检索档案信息目录数据库替代传统手工检索档案目录,也就是机读档案目录替换纸质档案目录检索,由于计算机扫描技术和存储技术应用费用昂贵、工序繁杂,以及档案形成部门的电子文件还没有完全普及,所以在此过程中很少涉及到全文检索和利用。此阶段的计算机技术仅在档案信息检索上得到充分运用,在档案信息现代化管理过程中称为计算机辅助管理。
第二次档案信息现代化管理发展的飞跃,实质上从本质上改变了传统档案信息管理和利用以档案工作者为主体的风格,不但应用目录计算机检索技术替换传统手工目录检索,而且真正把纸质档案信息通过数据录入和计算机扫描技术把档案信息以数据库和图像格式存储在存储设备上,实现档案信息的全文检索。其关键技术就是把文本类电子文件中档案信息提纯出来,以数据库形式存放,提供检索和利用,或者以案件级和文件级目录下挂接电子文件,如图像格式(TTIF、JPEG、PDF)等,实现不进档案库房,不调档案案卷,不翻阅档案就可以利用相当于原始的数字化档案信息,在时间、效率、利用人群、效果上都充分发挥了档案信息的作用。
二、档案信息数字化原则研究
1、科学性原则
档案信息数字化科学性原则指在数字化档案信息时遵循档案信息的形成、保管、利用的客观规律,体现档案信息管理的特殊性。使档案信息数字化工程真正服务于社会,发挥其信息资源的作用,就要求整个过程,从档案信息收集、处理、存储、传递、利用乃至反馈,都必须是真实、准确、可靠。许多档案信息都具有实效性,过了一定期限其效用就会减少、甚至丧失,所以在数字化档案信息时要充分考虑在档案信息在其价值的升值前期进行,也就是遵循科学发展观。
2、一致性原则
档案信息数字化一致性原则指档案信息数字化后经过计算机网络、检索技术在提供给用户的档案信息与原始纸质档案仅存在着载体和阅读方式上的差异,其承载的档案信息内容是完全一致的,假如解决了数字档案的法律凭证作用后,用户在计算机网络上利用的数字化档案信息相当于在档案馆实地调阅原始档案实体一样效果。对于有些特殊的电子文件能以原始形成格式进行还原显示,如照片、图纸等。
3、完整性原则
档案信息数字化完整性原则是相对于档案管理工作者而言是确保被数字化的每个档案主题的内容和档案含义是完整的,没有被断章取义仅仅数字化其中一部分或几部分,保证在计算机网络上提供检索的信息都是相互关联或者单独具有用户所需的信息。并且保持数字化后档案信息在逻辑上保持相对的准确,独立,保证数字化档案信息的可理解性,使用户能理解每一份的数字档案内容相关的信息,如元数据、物理结构和逻辑结构的关系等。
4、共享性原则
档案信息的数字化其目的是提供档案利用率,就是档案信息共享性,因为档案信息是来自社会是全社会的宝贵财富,数字化的档案信息利用得越是广泛,其资源作用就发挥得越是充分,所以共享性原则要求档案信息数字化建立完备的档案信息数字化保障体系和高效的信息流通、传递和利用体系作为其重要的内容,通过有效的分析和管理,及时准确地把利用率高的、具有较大社会效益和经济效益的档案信息数字化最大限度地提高利用效果。
5、安全性原则
档案信息数字化的途径一般有两条,第一通过接收电子文件和馆藏传统介质档案信息数字化,第二馆藏传统介质档案数字化的方式一般是用计算机录入和扫描的两种方式进行的。这些数字化档案信息,与传统的档案信息相比,因为依托于计算机存储技术、网络技术所以具有明显的不稳定性,数字化信息的内容和位置易发生变化。因此,在档案信息数字化过程中要做到安全性原则。第一,通过录入或扫描方式得到数字化档案信息的,要确保档案原件的安全。第二,在处理和存贮数字化档案信息时,要确保数字化档案信息的内容与档案原件相吻合。第三,遵循原始档案的保密性,确保涉密档案信息的不被未授权者浏览。第四,利用先进的计算机安全技术,如防火墙、实时杀毒软件以及存储设备,保证已经数字化的档案信息的安全。
三、档案信息数字化方法研究
档案信息数字化的内容主要有二个,第一,是每年增量档案信息的数字化,增量档案是指每年档案形成部门形成后未归档的文件材料,也就是档案管理部门参与前期预立卷控制和管理,但还没有执行物理归档手续的各类档案信息。第二,是馆藏档案信息的数字化,馆藏档案指已经履行文件材料的物理归档手续,并经档案管理工作者整理上架待检索查阅的档案信息。
随着《2006-2020年国家信息化发展战略》提出,国家信息化发展的战略方针是:“统筹规划、资源共享,深化应用、务求实效,面向市场、立足创新,军民结合、安全可靠”,反映了新形势下国家信息化发展的新思路,针对其发展战略方针,全国省市、各行各业都制订对应的信息化方针,绝大多数单位其信息化建设进程或初具规模、或抓紧落实、或积极谋划,在文件形成初期就以电子形式存在于计算机存储设备中。电子文件的格式一般有字处理文件指用字、表格处理等软件制作形成的文字、表格文件等,如TXT、PDF、XML、DOC、WPS文件格式。图像文件指用扫描仪等设备获得的静态图像文件,如JPEG、TIFF文件格式。图形文件指用计算机辅助设计或绘图等获得的静态图形文件,如DXF、DWG格式。影像文件指用视频设备获得的动态图像文件,如MPEG-1、2、4,AVI文件格式。声音文件指用音频设备获得的文件,如MPEG-3、WAV文件格式。多媒体文件指用计算机多媒体技术制作的文件。数据库文件指用数据库系统制作的文件及可能产生的各种相关辅助文件。
1、增量档案信息的数字化方法
档案管理作为文件管理的延伸和最后环节,档案管理部门针对增量档案信息因地制宜根据实际情况,研发或购置相应的电子档案管理系统软件,系统软件的功能模块中应具有异地实时归档移交功能,其过程就是在计算机网络中采用C/S或B/S的架构,使文件形成部门的兼职档案员在办公室的计算机终端上,利用功能模块中电子文件的上传功能,把不同内容的电子文件根据分类和档案著录原则分别挂接到档案管理部门的数据库服务器中的对应字段中,完成电子文件的逻辑归档的同时完成归档档案信息的数字化。也就是运转在计算机网络中的电子文件,经过归档处理,集中存放在受档案部门控制的计算机存储器中,向档案部门移交的过程。其过程称之为联机归档,常采用四种类型的联机归档方法:(1)在线集中式归档:在档案管理部门控制的数据库服务器中开辟中心文件库,各文件形成部门将归档电子文件分类别、分年度、分内容存储到该库中去,归档时集中到中心文件库中去调取。(2)在线分布式归档:各文件形成部门将归档电子文件存储本地终端中,归档时通过电子档案管理系统软件中网络传输功能向档案部门移交。(3)在线滞后归档:根据归档要求文件形成部门兼职档案员每年1-2次集中整理归档,可根据管理系统功能或逻辑归档,或物理归档。(4)在线实时归档:文件形成和管理部门把文件办理完毕或文件形成后随时进行逻辑归档或物理归档。
在计算机和网络普及的当代,档案形成单位一般都先形成各类电子文件,而电子文件的归档主要有二种方法,一是逻辑归档,二是物理归档。电子文件的逻辑归档,就是档案部门不接收实体电子文件,仅在计算机网络上接收归档的电子文件目录和电子档案原件,并通过网络对归档电子文件实行远程管理。逻辑归档方式不改变归档的电子文件的存储位置和存储方式,使之不脱离原机构的电子文件保存系统,始终保存在生成环境的系统中。这种方式既有利于保持电子文件的完整性和真实性,又可以保持电子文件的长期可读性,也方便电子文件生成机构对档案信息的频繁查考利用。电子文件经逻辑归档后其所有权发生了变化,不再属原机构,档案部门有权对其实行在线管理、信息加工与提供利用。经过逻辑归档的档案信息已经是以计算机能识别的存储形式存在,所以其数字化过程已经完成。电子文件的物理归档,就是指文件形成部门移交时将电子文件的档案实体从原机构的电子文件保存系统中转移到档案部门的档案管理系统中。形式一般是把记录有电子文件的磁性载体,如光盘、磁带等磁性材料移交给档案馆。在物理归档中档案部门不强求原机构删除机构系统内已经移交的电子文件,其归档方式与传统的纸质档案归档类似,其优点在于减轻电子文件形成机构的文件管理负担,电子文件的安全和利用都得到加强。档案馆在接收到物理归档的电子文件光盘或磁性材料的载体后,及时根据服务器数据库中的案卷、卷内目录以及电子档案原件的类型的字段把归档的字段内容一一对应后,追加到数据库服务器中,其过程就是增量档案信息的数字化过程。
2、馆藏档案信息的数字化方法
馆藏档案信息数字化指把档案库房内经过组卷工序归档上架纸质载体的档案案卷中每页文件,经过扫描仪、数码照相机等数字化设备将档案信息由各种物理载体形式体现出来的信息,工作流程主要分为:档案检查:对交接档案的完整性、破损进行检查,记录并反馈缺码、缺页、重码、破损、案卷(卷内)目录、备考表、封面错误等现象。档案整理:根据检查及反馈的情况对档案实体错误进行纠正处理,包括重编页码、补编页码、纠正卷内(案卷)目录、备考表等。档案扫描:依照整理后的档案实体顺序进行档案的扫描,依据案卷档案号进行文件夹管理,同时依所件号进行文件命名。图像处理:检查扫描图像按照实体档案顺序排列并进行文件管理,确保图像端正、页码连贯无缺、图像干净无黑边。索引录入:依据整理纠正后的档案实体进行卷内目录及案卷目录的录入。数据制作:依据年份-档号-件号进行电子档案信息的逻辑保存方式进行数据的管理,并依照合理的方式进行光盘刻录。数据导入:在档案管理软件开发单位的支持下,正确将案卷及卷内目录及档案图像文件导入到档案管理系统,确保对应准确条目与图像(全文)完全一一对应。档案装订:在档案数字化处理完成后,输出新的卷内目录并制作新的档案封面,依据国家标准规范进行装订成卷,三孔一线重新装订还原档案,重新还原装订的档案保证正确、美观。
四、档案信息数字化对档案工作的影响
1、档案工作的重心从收集保管向开发利用转变。
传统的档案信息工作是注重档案收藏和保存,其实档案工作的最终目的除保存历史记录以外主要是为了利用,这是档案工作生存发展的基础。如何为社会提供档案信息的有效利用,是我们档案工作者不断探索和追求的目标,数字化的档案信息可以通过网络等现代技术实现异地的远程利用,为需求者提供方便快捷的档案信息服务方式和途径。
2、实现不同单位行业档案信息的资源共享。
随着计算机网络技术的不断发展各式各样的信息的全球化,作为信息的重要组成部分,档案信息的数字化越来越成为档案管理发展的主要方向。档案信息数字化是实现全国乃至全球信息共享的必经之道,档案信息的数字化就是实现档案信息共享的最根本的基础工作。离开数字化的档案信息讨论档案信息共享就如无源之水一样。
3、对馆藏珍贵纸质档案原件得到最有效保护。
档案的唯一性、原始性和凭证性决定档案是真实记录历史的重要体现,因此保护原始档案安全和可用性是档案工作的重要内容之一,档案数字化之后,档案利用方式从利用原件变成主要使用数字化的档案信息,而不是从馆藏中调阅原始的纸质档案,特别是一些具有保存价值的珍贵的档案,档案原件从而得到了更加充分和有效保护。
4、档案利用工作实现管理者为主体向档案用户为主体转变。
传统档案利用工作是档案工作者根据用户需求结合档案组卷的相关规则和检索方法以及档案排架规则调出原始档案供利用,数字化后档案信息的利用工作转变成由授权档案用户根据自身的调档需求,组建检索关键词在网络上实现随时随地的查阅档案信息,减轻了档案工作者的劳动强度,方便了档案用户的查阅,提高了利用工作的效率。
5、实现档案信息一次数字化,无穷次利用和转换。
在数字化档案过程中根据档案载体形式的不同,可以将纸质、录音、录像、幻灯、照片等各种载体的档案信息经过数字转换和处理,同样无限次地再现其他载体档案信息的真实内容,档案信息的利用时效性和档案内在价值可以得到充分的释放和体现,可以实现档案工作价值的增值。
6、为电子政务和无纸办公的信息接轨创造无缝联接。
随着国家电子政务的不断发展和推广,无纸化办公和电子文档的普遍应用,根据国家对电子文档的标准统一和进一步规范,在相关法律的允许范围内,电子文档可直接采用数字方式存档,与早期纸制档案的数字转化信息共同组成数字档案信息库。
五、档案信息数字化中的瓶颈及其对策
1、档案信息数字化的标准
档案信息数字化的目标是实现档案信息的资源共享,而档案信息资源存在的发散性造成各行各业单位的档案信息载体、内容等千差万别,格式、信息内涵的缤纷繁杂。因此,在档案信息数字化过程中必须遵循国家档案管理和信息管理方面的标准,如我国己经颁布并执行的有关电子文件管理和纸质档案数字化的标准有《纸质档案数字化技术规范》<DA/T 31-2005>、《信息交换用汉字编码字符集.基本集》<GB/T2312-1980〉、《磁性载体档案管理与保护规范》(DA/T15-1995〉、《CAD电子文件光盘存储、归档与档案管理要求》〈GB/T17678-1999〉、《档案著录规则》<DA/T18-1999>、《CAD电子文件管理》(GB/T17825。f10-1999〉、《电子文件归档与电子档案管理规范》(GB/T 18894-2002〉等等。俗语讲没有规矩,不成方圆,同样档案信息数字化中各类标准是资源合理、有效共享的基础;是档案信息数字化过程中首先需要解决的问题。
在当前计算机和网络通讯技术迅猛发展的时代,各类新技术、新方法、日新月异、层出不穷,现代化的档案管理方法也必须适应其发展的步伐,及时更新和制定各类管理标准和方法,保证现代档案管理工作能适应时代的发展。
2、档案信息数字化的存储与维护
保证档案信息数字化内容的可读性、可存取性、可迁移性是信息数字化建设一项重要的任务和目标。数字化档案信息的存储设备一般为计算机光盘、硬盘、磁带或其他以数字形式存放载体,根据各类档案载体在适宜环境(温度为60~70度,相对湿度为30%~40%)中保存,经过比较发现纸质档案比电子存储设备更加长久和安全。在光介质、磁介质等存储设备中,硬盘是比较其他存储介质性价比更合理,但保存在硬盘驱动器上的数据的寿命会受到两个因素的影响。首先一个因素就是热磁衰减,也就是所有磁性存储设备都有一个慢慢减弱的过程。随着位密度的增加,这个衰减的效果也会增加。理论上现代的硬盘应该能够保留数据长达20年左右,但是一般厂商承诺的安全可靠保留时间只有10年。第二个因素是若干年后得保持现有计算机系统的应用环境来存取阅读数据,但根据计算机以及材料科学的发展趋势10-20年后,现有的存储设备可能已经成为古董了,就如二十世纪90年代的5寸软磁盘已经无法在市场寻觅到一样。
在现有的存储格式中很少有一种存储格式能够保留数据超过30年,所以针对特别重要档案信息的保存,还是应该密切关注其存储状态,每年进行抽样检查其存储情况并能够每隔5年左右将这些数据从一种格式迁移到另一种新的存储格式。因此,强调有效使用档案数字化信息资源,必须保证数字化存储设备的安全性;保证档案信息的可存取性。
3、网络安全对档案信息数字化的影响
数字时代的信息资源的共享是通过网络技术和网络环境实现的,是现代档案管理发展的方向和必然趋势,作为档案的管理者一项重要的工作就是要维护和保证档案信息的安全与完整。档案工作者今天的重要责任,不再是仅仅对档案原件的安全、完整负责,更重要的是对网络安全以及数字档案数据库的维护与保证。随着计算机技术的发展,网络安全已经有了包括软、硬件技术在内的多种防范措施,诸如:系统预设用户授权、防火墙技术、电子身份识别、数据加密等等,但这些措施到目前为止都没有能够从根本上彻底解决网络环境的安全性问题,因此档案信息数字化的利用与安全既是矛盾也是挑战。
在现有的计算机和网络技术的条件环境中,为确保数字化的档案信息的安全应时刻关注在计算机安全方面的技术发展,及时更新计算机数据库方面安全防范手段,调整计算机网络安全策略,保证档案信息数字化的成果。
综上所述,随着各企、事业单位的档案信息化建设的不断深入,各类信息之间的联系越来越密切,“信息孤岛”问题将逐渐消失。而在档案信息数字化过程中认真分析研究档案信息数字化的方法、原则、制约因素后充分利用网络和数据库的开放接口,实现跨部门、跨系统的信息资源共享,实现各类系统中数据库的互联互通,为档案利用者提供有效、快捷的信息获取渠道,真正实现信息资源的共享,从根本上提高档案信息综合服务效率和质量,充分发挥档案信息在领导决策、生产科研等工作中的服务作用。
参考文献:
王萍、宋雪雁编著:《电子档案管理基础》清华大学出版社2006年8月
薛四新、彭荣、陈永生主编:《档案信息化应用系统建设》机械工业出版社2006年1月
冯惠玲、张辑哲主编:《档案学概论》,中国人民大学出版社2001年版
刘国华、关欢:《文档快速摄像输入及数字化处理研究》《档案学通讯》2006年第3期
孙玲;王秋云:《馆藏档案数字化浅析》《山东档案》2006年第4期
匡定发:《档案信息化建设理论结构模型素描》,《档案学通讯》2002年第6期
《中华人民共和国档案行业标准DA/T 31—2005纸质档案数字化技术规范》《西安档案》2006年第4期
杨福平《档案信息数字化的认识与思考》
http://www.acas.ac.cn/dag/doc_h/h_02_0002.jsp
屠跃明《关于档案信息数字化工作的探索》
http://www.acas.ac.cn/dag/doc_h/h_02_0001.jsp
bitsCN整理《数据有效存档,你该选择何种介?》
http://www.bitscn.com/stor/storart/200701/87884_2.html