档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案论文 » 论文欣赏 » 正文

谈纸质档案全文数字化存贮格式

放大字体  缩小字体 发布日期:2018-11-15 11:37:05    来源:网络    浏览次数:568    评论:0
导读

摘 要 当前纸质档案数字化工作中的“瓶颈”问题是全文数字化工作,而全文数字化的存贮格式问题又决定档案全文数字化工程的效率和成败。本文通过对常用存贮格式存贮空间、通用性、字符识别、操作技术的难易程度、最大限度降低费用等问题进行探讨,选择适合当

摘  要   当前纸质档案数字化工作中的“瓶颈”问题是全文数字化工作,而全文数字化的存贮格式问题又决定档案全文数字化工程的效率和成败。本文通过对常用存贮格式存贮空间、通用性、字符识别、操作技术的难易程度、最大限度降低费用等问题进行探讨,选择适合当前档案部门全文数字化的存贮格式。
关键词   纸质档案 数字化 全文 格式

  在档案信息化建设中,档案的数字化工作是档案信息化工作中的重中之重,在各种档案中纸质档案占据了大壁江山,纸质档案全文数字化问题成为档案数字化工作中的“瓶颈”问题。从全国范围来看,除深圳、青岛等极少数几家档案馆摸索性地开展了档案全文的数字化工作外,绝大部分档案馆和档案室都处在等待和观望状态。纸质档案的数字化问题中全文的数字化存贮格式问题又是当前纸质档案的数字化问题中的热点、难点问题。
  纸质档案全文数字化可通过扫描仪和数码相机两种方式实现,由于纸质档案数字化要求所获图像要保持原貌、变形要小,使用数码相机反而加大了操作难度,本文仅探讨使用扫描仪来实现纸质档案全文数字化中的存贮格式问题。
在《中华人民共和国行业标准DA/T31—2005 纸质档案数字化技术规范》中,对图像存贮格式作了规定:“采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储”;“存储时的压缩率的选择,应以保证扫描的图像清晰可读的前提下,尽量减小存储容量为准则”;“提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式”。同时在扫描分辨率上也作了规定:“扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准”;“采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均建议选择≥100dpi”;“特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率;需要进行OCR汉字识别的档案,扫描分辨率建议选择≥200dpi”。
  为了便于理解,我们先对规范中所列的几种格式作一简单介绍:
  TIFF图像格式,扩展名是tif。TIFF有压缩和非压缩二种形式,其中压缩可采用LZW无损压缩方案存储,这种压缩是文件本身的压缩,即把文件中某些重复的信息采用一种特殊的方式记录,文件可完全还原,能保持原有图颜色和层次,优点是图像质量好,但占用空间大。由于TIFF格式结构较为复杂,采用无损压缩可提高与其它图像软件的兼容性。
  PEG图像格式,扩展名是jpg或jpeg。JPEG是面向连续色调静止图像的一种高效率压缩格式,但在JPEG压缩过程中丢掉的原始图像的部分数据是无法恢复的。这种文件并不适合放大观看,输出成印刷品时品质也会受到影响,如将图像另外再存成JPEG 格式文件,则原先图像将再度被压缩一次,结果图像的品质将变得更差。
  PDF格式,扩展名是pdf。 PDF采用的是CCITT无损压缩算法,只是按照PDF的文件结构进行了封装,这和二值TIF格式采用的算法是一致的,通过PDF扫描的文档其尺寸至少会和相同TIF文档一样大,可以实现多页存储及双层PDF。所谓多页就是在一份PDF图像文件中可以存放多页图像。所谓双层PDF就是PDF文件的每一页都包含两层,上层是从纸质文件扫描出来的原始图像,下层是用光学字符识别(OCR)软件对扫描图像进行识别后产生的文字结果。这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果(包括公章、签名),在需要的时候,又可以通过下层的文字信息支持选择、复制、检索等功能。但双层PDF的中文生成工具也都不是免费的。
  CEB格式,扩展名是ceb。CEB是由国内开发的拥有自主知识产权的一种版式复合文件格式,通过转换模块把DOC、WPS、TXT、PDF等多种文件格式转换成CEB版式文件格式并同步转换成标准的XML格式,可将文件印刷过程中的版式保留,与纸质文件保持同一性。
  全文数字化工程是一项费时、费工、需要投入大量资金的巨大工程,目标定位不好,将会造成大量的返工和浪费更多的资金、时间以及人力投入。因此在探讨存贮格式之前,我认为首先要解决对全文数字化的三种认识问题:第一种认为全文数字化只需要提供使用者可阅读件即可,因此在存贮格式上只需考虑“看得清”和存贮空间问题;第二种认为只需要提出出档案的文字内容来提供利用,这样既可以节约大量存贮空间,也可提高在网上公布时的传输速度,因此只需解决字符的识别问题;第三种是在提供可阅读件的同时还要提供相应的字符内容,为此就要考虑到今后提供在线服务或公共网络传递、公布扫描件等问题,因此就必须既要考虑“看得清”和图像与字符共存问题,还要考虑再现档案原貌和存贮空间问题以及存贮格式的通用性、兼容性等问题。
  第一种认识是最容易实现,只需要找到一种能够实现高压缩比来解决图像大小,扫描时采用较低分辨率,能保证人眼“看得清”就行。这种方式可达到“事半功倍”的效果,但是今后随着人们对数字化档案利用认识提高的同时,需要提供更进一步的信息时,就需对纸质档案重新进行扫描才能获得高质量的文字信息,这势必会造成更大浪费。因此为了当前能省时、省力、减少经费投入,把目标定位在只提供可阅读(即“看得清”)上是不可取的。
  第二种认识表面上看实现起来与第一种方式一样比较简单,其实在实际操作中比第一种方式要多一道工序。为了得到纸质档案中的字符信息,必须通过扫描得到图像后,才能从图像中识别字符并将其提取出来。既然为了得到字符信息,对已形成的图像文件就不应随便丢弃,应保存起来便于日后再用,何况早期的纸质档案中很多字符计算机都无法识别,只能以图像文件的方式进行数字化。因此单纯保留字符信息的方式也是不可取的。
  第三种认识我认为是出于从长远来考虑的,全文数字化工作最好是一步到位即纸质档案只需扫描一次,就能解决扫描件的可读性、再现档案原貌、实现图像内字符的可查找及再编辑、实现图像以及图像内字符的共享等问题,减少重复工作、节约更多时间、避免资金浪费。但是要实现此目标,就需对存贮空间、通用性、字符识别、加工操作技术的难易程度及最大限度降低费用等问题进行权衡,探索出适合档案馆(室)工作实际、兼顾行业标准及方便公众使用等的存贮格式。
  规范中四种格式当中,除CEB格式不能通过扫描获取不在本文探讨之列外,TIFF、JPEG和PDF均可通过扫描获取,都有很好的通用性。但要实现第三种认识这一最终目标,只有通过PDF格式才能基本达到。其原因有:
  一是纯粹的TIFF和JPEG格式只能形成单张图像文件,每张之间不能按每份档案之间的联系形成关联即不能实现多页图像存贮在一个文件中,为了方便日后的使用就必须增加大量的人工操作过程和增大投入来建立相关联系。二是单张TIFF和JPEG格式的图像,虽然可通过OCR软件进行文字识别,但不能形成上层是图像,下层是文字的双层格式,只能将识别出的文字另存其他格式的文档中,其结果是增加了对图像和文字的加工和管理工作量。通过PDF进行扫描或导入获得的图像就能形成多页图像,还能形成双层PDF。
  非常遗憾的是用PDF作为纸质档案全文的数字化工具时,PDF自带的OCR工具不支持中、日、韩文字,必须使用国内开发的收费专门工具才能识别中文字符并形成含中文字符的双层PDF,所形成的PDF空间占用太大,一页A4幅面带红头、印章的文件用200dpi彩色扫描竟然达到8M大小。值得庆幸的是目前PDF 7.0版本增加了对制作好的PDF 文件,通过“减少文件大小”功能,可以很大程度减少文件大小,8M大小的文件减到200K左右。
  除PDF外,在Microsoft Office2003中自带了一款Microsoft Office document Imaging(MDI)工具可更完美地实现第三种认识这一最终目标。
  通过MDI扫描可形成数字图片的通用交换的高分辨率标记TIFF图象格式(扩展名也为tif) 和一种高分辨率的基于标记TIFF的图形MDI格式(扩展名为mdi),MDI 格式使用了改进的图像压缩技术,与 TIFF 格式相比,可使文件大小更小、图像保真度更高。
  MDI这款图像工具与PDF非常相似,同样能还原档案面貌、形成多页图像、自带OCR工具并有形成双层的功能、脱离自身环境后文件中包含的所有 OCR 文本都将丢失。但MDI与PDF又有其不同点,MDI扫描获得的图像质量比PDF高、文件大小比PDF更小、自带OCR工具支持中文字符、字符识别过程中可自动旋转页面、双层功能的实现是免费的、可形成TIFF多页图像并能脱离MDI环境能被ACDSEE等其他图像浏览软件所使用。但是唯一不足之处就是面市时间比较短,很多人还没有真正认识到他的存在,相比之下,他的兼容性不如PDF好,但凭借微软件的技术,随着时间的推移,兼容性问题迟早会得以解决。
图像格式 PDF MDI
  tif mdi
扫描类型 彩色 黑白 彩色 黑白 彩色 黑白
扫描分辨率(dpi)200 200 200 200 200 200
扫描区域大小 A4 A4 A4 A4 A4 A4
文件长度(KB) 8061 22 939 27 147 29
转存TIFF后的大小9448 24 939 27 7501 30
多页图像 √ √ √ √ √ √
可形成TIFF多页图像× × √ √ √ √
自带中文OCR × × √ √ √ √
中文双层 × × √ √ √ √
自动旋转页面 × × √ √ √ √
  通过以上的分析以及使用同一页A4幅面带红头、印章的文件作测试(见上表)可以直观看出MDI的突出特点:全文数字化工作可以一步到位即纸质档案只需扫描一次,就能解决扫描件的可读性、保持档案原貌、利用中文OCR生成双层MDI实现图像内字符的可查找及再编辑、在自动进行OCR识别过程中能自动旋转页面、所识别的文字可导出为word文档提供编辑利用实现图像内字符的共享、形成的图像及识别的文字质量与PDF相比要高得多、利用保存为TIFF格式功能实现多页图像并能脱离MDI环境能被ACDSEE等其他图像浏览软件所使用、所保存的文件空间占用极小等等,这些突出特点在很大程度上减少了中间的重复操作环节,降低了操作者的操作技术含量,提高了效率节约更多时间、避免不必要的资金浪费。
  因此本人认为,MDI这款图像工具是当前最适合档案馆(室)工作实际、兼顾行业标准及方便公众使用的纸质档案数字化工作的最好工具,如果采用MDI中mdi格式存贮在空间的节约上效果会更加明显。

 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201811/1715.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1