一、 纸质档案数字化相关参数定义:
l 黑白二值图像:只有黑白两级灰度的数字图像。它对应于黑和白两种状态的文字稿、线条图等。
l 连续色调静态图像:以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。在纸质档案数字化过程中,通常表现为灰度扫描和彩色扫描两种模式。
l 图像压缩:清除图像冗余或对图像近似的任一种过程,其目的是对图象以更紧凑的形式表示。纸质档案数字化过程中,较常见的有TIFF(G4)、JPEG等压缩格式。
l 分辨率:单位长度内图像包含的点数或像素数,一般用每英寸点数(dpi)表示
二、 根据对象不同情况如何选择扫描参数
l 页面为黑白两色,并且字迹清晰、不带插图的档案.可采用黑白二值模式进行扫描。
l 页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。
l 页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。(建议)
l 扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
l 采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均建议选择大于或等于200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
三、 扫描图像的处理
l 图像命名:以档案实体中的档号命名 ,如全宗号-目录号-案卷号-文件顺序号-页号,位数符合机读目录实际位数。
l 纠偏:对出现偏斜的图像进行纠偏处理,保证数字图像的偏斜角度小于1度(图像偏斜不超过页面内三分之一个文字)
l 去污:档案数字化图像的去污遵循不影响可读度的前提下展现原貌的原则,去除数字图像中影响可读度的杂质,包括局部去污,如去除黑点、黑线、黑框;整体去污,去除页面上的污渍
l 拼接:为保证档案数字化图像的整体性,对幅面分离的数字图像进行拼接
l 裁边处理:采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
l 合并:使用工具把扫描的多个单页图像文件合并成一个多页图像文件
四、 存储格式
l 采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储。采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。存储时的压缩率的选择,应以保证扫描的图像清晰可读的前提下,尽量减小存储容量为准则。
l 提供网络查询的扫描图像,存储为多页PDF,或多页TIFF(G4)格式,如果一份纸制文件数字化后分别存在TIFF格式和JPEG格式的图像文件,用PDF格式进行合并,并保持其中的图像页原有压缩算法不变。