档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案信息化 » 档案数字化 » 正文

档案数字化工作实例

放大字体  缩小字体 发布日期:2018-09-13 16:51:27    浏览次数:287    评论:0
导读

档案数字化工作实例1 中央档案馆纸质档案数字化工作为了加强档案数字化工作,2001 年9 月,中央档案馆技术部在档案数字化工作领导小组直接领导下建立了数字化加工中心,开发了数据批量加工软件,开展了档案数字化加工工作。1.设备配置根据不同纸质档案的加工要求,分别采用不同的设备。柯达3500D主要用于纸张质量较好的档案

档案数字化工作实例

1 中央档案馆纸质档案数字化工作

为了加强档案数字化工作,2001 9 月,中央档案馆技术部在档案数字化工作领导小组直接领导下建立了数字化加工中心,开发了数据批量加工软件,开展了档案数字化加工工作。

1.设备配置

根据不同纸质档案的加工要求,分别采用不同的设备。柯达3500D主要用于纸张质量较好的档案扫描,以200dpi扫描A4幅面的可达 85页/分钟;柯达 150、鸿光AV830 具有快速扫描(以200dpi 扫描A4幅面为20页/分钟)和平板扫描功能,主要用于纸张较薄及幅面不规范的档案扫描,起到保护档案的作用; A4平板扫描仪主要用于各种特殊要求的档案扫描,如粘贴页、表格页、一般文本流程图、插图、照片页、字体不规则的全文字页及各种字迹不清晰的原件和复印件; A3板主要用于A3幅面的档案扫描;美能达快速胶片扫描仪用于对缩微胶片快速批量扫描加工。

2.数据加工中心日常管理

由于档案业务的机密性,凡是数据加工人员都必须进行政治审查,审查通过并签订数字化保密协议,方可上岗。同时数据加工人员还必须遵守《中华人民共和国保密法》、《中华人民共和国档案法》、中央档案馆的现行管理条例规章制度,数据加工操作规章、加班制度、考勤制度,安全防范条例。

1)加工档案的类型及数量

一是没有经过任何电子化处理的纸制载体的档案或资料。这部分档案占馆藏的绝大部分,资料质地主要是纸张,总量可以达到83 万卷,其中大部分档案是1976年以前的,为保护档案、保证图像质量,需要降低扫描速度; 1976年以后的,可适当提高扫描速度。

二是经过缩微处理过的胶片档案或资料。一部分经过缩微的档案可以通过现有的缩微转换设备转换为电子图像。这部分档案的数量相对较少,现有设备完全可以满足数字化转换要求。

三是其他载体类型的档案或资料(诸如声像档案等多媒体档案)。这部分档案可以直接转换为通用的电子多媒体的形式。

2)数字化加工工序分解

扫描前整理:根据管理控制台分配的任务,档案拆卷、分件、分页;对任务进行批量扫描前的页号、件号的标注,如果资料整理结果中的件数、页号与扫描前所标引的件数、页号不一致,则将资料重新进行整理。

条目数据的著录、校对:根据案卷封面和卷内文件目录进行条目数据的著录。

通过批量扫描软件给不同的工位分配、调度扫描、校对任务。

批量扫描:整理好的档案按页进行扫描。如果有问题,将任务回退,重新处理。

一次校对:针对文件扫描的情况,标示图像的质量情况。如果有问题,将任务回退,重新处理。

图像优化处理:根据一次校对的标示内容,对图像文件作图像优化处理。如果有问题,将任务回退,重新处理。

二次校对:察看图像的情况,并结合一次校对标示内容,对图像进行质量检查。如果有问题,将任务回退,重新处理。

批量上载:优化完的图像,如果有问题,将任务回退,重新处理。

光盘刻录:质量检查合格,统一逻辑分盘同时刻录光盘。

档案还原:档案信息电子转化完成之后,需要将数字化后的档案进行重新整理,恢复档案原貌,以便档案完整保存。

原文挂接:把扫描生成的电子原文上载到中央档案馆档案管理系统的服务器上,并与档案管理系统中的卷内目录一一对应,以便对原文的查询利用。

3.数字化质量保证技术

为保证档案数字化的图像的质量,在扫描纸质文件时,利用数字加工系统进行相应的技术处理。

1)污渍、黑边、偏斜处理

包含去污、去黑边、纠偏等功能。支持两种去污方式:一是局部去污,如去除黑边、污点;二是整体去污,可一次性去除页面上的污渍。纠偏可做到任意角度的校正。

2)全文字页面的扫描密度

保证扫描后的数字图像清晰,便于阅读,适应各种纸张和手写印刷字的情况。为此,采用各种专业化的扫描仪,扫描文件存储为国际通用TIFF格式,支持多级别分辨率的扫描方式,如黑白、灰阶、彩色等;针对不同的档案图像质量采用不同的扫描精度。扫描精度在200-600dpi,以清晰为准,不盲目增加精度而造成存储压力。并采用国际标准的传真文档压缩格式进行压缩, A4标准幅面的黑白二值图像压缩后平均约为 30kb/页。可保证图像存储空间要求的合理性。

3)粘贴页与表格

加工系统提供了局部去污的功能,对于页面中不应有的表格线污染能够完全清除;对于粘贴折页问题,我们通过大幅面扫描仪来解决这一问题;采用局部淡化技术可以解决碳素墨水导致的字迹与表格颜色深度不同的问题,确保数字档案的可阅读性。对部分粘贴页的字体很小、字迹密集的情况,可适当采用提高扫描分辨率、灰度扫描或彩色扫描,以及结合图像局部深化技术等方式,确保数字档案的可阅读性。

对于一般文本流程图,采用适当的分辨率扫描以及图像局部深化技术可以确保文本流程图清晰。随时调用采用不同设备满足文本流程图的扫描工作。

对于插图,采用高分辨率灰度或彩色扫描技术将插图与文字一起扫描,保证原来的页面布局和保证插图清晰可阅读。

对于页面中有黑白或彩色照片的文件,采用 TIFF格式扫描,确保照片清晰度,同时可以避免图像存储空间过大。

4)安全存储

根据档案管理软件开发标准,此次数字化采用的是200 dpi 以上的TIFF国际标准格式,采用国际标准的传真文档压缩格式压缩后,分别按页编号后分页存储在服务器的Raid5 磁盘阵列柜中。

在生成裸数据光盘之前,根据资料整理信息、扫描前的标引信息及卷内文件页号信息核查图像文件总数是否与实际文件数相等,如不相等则不能生成裸数据光盘,但可打印出清单,回退给图像处理人员补扫。

数据以刻录光盘的形式每天做增量备份。

最后将原文刻录光盘的形式移交,并将电子原文数据挂接到中央档案馆档案管理系统中。

4.数字档案验收

验收总体目标:目录和经过加工处理影像数据完全挂接,图像清晰,基本能反映档案原貌。同时扫描前后的实体档案按进馆标准进行专业整理。

验收标准:

确保扫描前后档案整理的一致性、标准性、专业性。

扫描图像与条目数据100% 挂接。

文件、图像格式为国际标准TIFFJPG 格式等。

文件图像扫描按中央档案馆规定进行,保证提交的图像文件已经过去污渍、去黑边、纠偏斜等技术处理;保证照片页面采用整体彩色或整体黑白扫描,最终确保文字、粘贴页、表格页、流程图、照片等清晰。

2 民国档案数字化工作的做法和体会

中国第二历史档案馆(以下简称二史馆)的馆藏主要是民国时期中央政府的档案,其档案信息载体基本上都是纸张,排架长度约 50公里。最近几年,二史馆与社会合作,对馆藏档案进行大规模高水准的整理,并把整理成果最终体现在这部分馆藏档案由纸质转化成数字化。目前共扫描档案 800多万画幅,刻录光盘1600 余张,取得了较好的社会效益和经济效益。

1.纸质档案数字化转换的两个重点

纸质档案数字化是档案信息数字化的需要,是建立数字化档案馆信息资源的重要途径。信息化最看中的是基础数据,最大的优势是资源共享。馆藏档案信息资源库的数据质量和信息资源为社会共享的方便程度是工作中主要考虑的两点。

(1)确保纸质档案的数字化转换的质量。

纸质档案的数字化转换为数字化档案馆提供了丰富的信息资源,它的质量关系到数字化档案馆的建设。档案被扫描的机会是一次性的,一旦扫描结束,同一份档案很难有再次扫描的机会。同时,馆藏民国档案年代久远,自身的状况很差,对扫描工作有较高的要求。如果不能把好质量关,在投入使用后才发现问题,其损失将是难以弥补的。对纸质档案的数字化工作的质量必须予以高度重视,宁可慢一些,但一定要好些。为此,二史馆专门设立了“扫描质量检验组”,采取一台质量检验计算机跟踪两台扫描计算机扫描图像,一个画面一个画面地人工检查,凡是有错扫、漏扫等扫描质量问题均予以删除后重新补扫。这样做虽然需要多投入一半的人力和设备,但确保了扫描的质量。

2)确保档案的数字化转换后信息资源共享的便利。

数字化转换后,档案信息是以电子文件的形式存在。电子文件的阅读必须借助专门的电子设备和软件。在对这些电子文件做长期保存时,还要同时保存它们使用的技术环境。要做到信息资源的共享就要考虑这些技术环境的通用性。例如:针对扫描生成的电子图像文件,可以有多种不同的文件格式。不少单位从自身情况出发采用了多种不同的保存格式。有的采用扫描速度快,图像文件压缩好,一张光盘上可以刻录的文件数量多的格式。有的是延续过去已经使用的格式,以保持单位内部数据的一致性。而文件的格式与所用的工作软件是有关联的,为了提高扫描仪的扫描速度,二史馆针对不同的扫描仪开发了专用的扫描软件,后来,才改用能带动所有符合TWAIN 标准的扫描仪工作的快速扫描软件。在将图像文件刻录到 CD-R光盘时,选用的是符合ISO 9660 标准的数据刻录软件。为了实现信息资源的共享,对生成的电子图像文件,采用通用格式。

2.纸质档案数字化转换的一些做法

二史馆在档案扫描工作中使用的设备有扫描仪12台,计算机18台,刻录机2台,已达到了每个工作日扫描 10000个画幅(页)的加工能力。

1)技术先行

要做好大批量档案的数字化转换工作,技术工作必须先行一步。首先,在调研的基础上,结合本馆实际,提出总体技术方案;其次,确定所采用的数字化转换的具体办法、图像文件的格式、保存图像文件的方法;第三,根据软、硬件技术要求确定采用的设备类型、规格、数量。

经过多次讨论和小批量的试验,二史馆决定采用多台平板式扫描仪,扫描生成的图像文件用JPEG文件保存。每台扫描仪由一台计算机控制,生成的图像文件就存放在该台计算机中。若干台计算机组成一个网络,图像文件数据可以在各台计算机之间调动。另外有专门的人员在指定的计算机上对图像文件进行检验,经过检验的图像文件按全宗、案卷、页码组织成若干个文件夹,集中至专门的刻录用计算机,刻录至CD-R光盘上。这种技术方案的好处是可以充分发挥每台设备的潜力,节省经费。工作人员工作内容专一,易于操作,有利于提高工作效率。

为了加快扫描速度,需要有专用的快速扫描软件、刻录软件和检查、整理图像文件等数据的辅助软件。采用与专业公司合作及自行设计相结合的办法,最终设计出了一整套适合二史馆档案特点的扫描系列软件。经过800 万画幅的扫描、存储、刻录实践,证明该扫描系列软件完全符合档案数字化转换的技术标准和使用要求。

2)人员培训

利用档案扫描这个契机,大张旗鼓地进行计算机知识和操作技能的推广应用工作。各个部门人员轮流参加档案扫描,事先都安排接受短期培训,在扫描工作中淘汰下来的计算机也陆续分到各个部门。这项工作的开展大大地提高了计算机应用水平,基本达到了以项目带档案管理基础建设,以项目带队伍建设的目的。

3)制度建设

技术方案决定以后,管理就是决定性的因素。档案数字化转换过程也应通过规章制度来加以规范。根据档案扫描工作中遇到的各种问题,对流程设置、操作工艺、质检体系、数据的安全等均做出规定,每个工作岗位都制定有具体的操作要求,并在实际工作中,反复修改,逐步完善。

3.几点体会

1)领导高度重视是做好数字化转换工作的关键。计算机网络、应用系统、档案信息资源、人才队伍、技术规范是档案馆信息化建设中极为重要的几项工作,其中档案信息资源的建设是一项需要较长时间才能做好的工作。纸质档案的数字化转换是档案信息资源库的一个重要来源,是一项极为重要的基础工作,领导一定要给以足够的重视,早做安排,从长计议。这同时也是在实践档案的“软保护”。

2)必须坚持实践、实用的原则,在实践中探索,在使用中创新。当前,新技术层出不穷,然而,最新的最贵的技术不一定是最合适的技术。通过这几年档案数字化转换工作的探索,二史馆体会到,引进和使用技术一定要从本单位实际出发,不能盲目追求新技术,只要是成熟的稳定的技术,充分利用,规划得当,一样可以发挥作用。

3)充分调动技术人员的积极性,更好地发挥技术人员的作用。由于人员结构所限,在一些技术问题的解决上必须与外部的专业人员合作,但不能完全依赖别人,一定要给自己的技术人员有一个学习和提高的机会。纸质档案数字化转换中不断出现的一些非主流的技术问题,它的解决就只有依靠自己。二史馆采取了鼓励技术人员大胆工作,自己动手解决问题的做法,编制了一些辅助工作软件,如批量校对、批量修改、自动统计等,对提高工作效率,减轻劳动强度,保证工作质量发挥了很好的作用。

4.尚待进一步改进和加强的工作

1)馆藏纸质档案的数字化工作量巨大,要求作为一项长期性的工作来对待。一是做好数字化档案馆信息资源库的规划,综合考虑档案的价值、利用需求、档案保管等因素,对馆藏档案的数字化转换进程做出统筹安排;二是在组织机构、人员设置、岗位职能等方面做相应的工作。

2)进一步齐全馆藏纸质档案数字化工作的有关资料。一是参照整理档案时编写“编制说明”的要求,对馆藏档案的数字化转换工作采取同样的做法,详细记录该部分档案数字化转换的背景信息。内容主要有:档案选取的依据,制作和使用(阅读、复制等)的技术环境、操作办法。二是进一步完善相应的制度和程序,规范数字化转换的全过程。详细登录过程中的各类责任者及责任凭证信息(如起草者、审核者、批准者,批示、签名、印章等),加强管理,保证质量。

3)加强数字化档案信息载体的保管工作。随着档案数字化转换后电子文件数量的急剧增加,对档案信息载体的保管也需要做新的探索和相应的改变。

4)对数字化档案信息的利用需加强。数字化了的档案信息与传统载体上的信息是完全相同的,但二者的利用方式却大相径庭。在设备、软件、管理办法上均有新的要求。

5)加强相关计算机软件的交流。首先,数字化转换用的应用软件是保证数字化质量和效率的重要因素。可以按照“友好协商”“、互惠交换”或“有偿低价”的原则,在档案系统内交流。这样通过“成果共享”,有利于减轻软件开发上的负担,有利于统一标准的推广应用,有利于真正做到档案数字化信息的共享。其次,档案信息数字化后的一大优点是可以方便地做到在广大范围内的信息共享。但有时光有信息统一标准还是不够的,只有在管理软件上也统一起来才能真正做到广义上的信息共享。


 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201809/1080.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1