电子文件的特点之一就是多种信息媒体的集成性,档案工作者不仅可以保管和随时查阅各种文本信息,还可以储存和使用声音、图片、视频等多种媒体的电子文件,这不能不说是一种媒体的革命,也是电子文件优越性的表现。
不同种类的电子文件不仅在系统中的存储结构复杂,各种类型的电子文件格式在功能实现上也极其不同,可以说是种类不同,创建者在制作过程中的思维方式也是完全不同的,而对于使用者来说需要用完全不同的方式来管理和利用。
一、文本格式文件的管理方法
计算机中储存文字文件的格式属于文本格式类型电子文件,通常采用TXT格式来管理文本文件。计算机以二进制方式工作,它的全部字符也是用二进制来表示,那么就可以称这些二进制数是字符的编码。在计算机上常用的一种编码是ASCII码(American Standard Code for Information Interchange),称作美国信息交换标准码。而汉字在计算机中是以点阵形式存储的,通常有16×16,24×24,48×48点阵等。供屏幕显示用的汉字是16×16点阵,打印用汉字一般是24×24点阵。一个16×16点阵的汉字在计算机中是用256个点来表示,这256个点按横16个点、竖16个点排列成一个正方形域,每个点用二进制数0或1表示,其中有笔划经过的点为1,无笔划经过的点为0。这样一个16×16点阵汉字存储在计算机中占用32个字节(每行16位二进制数,占两个字节,共16行)。人们把常用汉字和符号以这种方式存储在计算机的存储器中就形成汉字字库。
在Windows下的汉字字库其实就是显示文字的字体集合,每一种字体独立而成一个字库文件,计算机显示汉字就是从使用者选定的字体的字库文件中通过一一对应的关系映射到屏幕的文字。而存储这些文字和符号的文件就被称为文本文件,仅储存文本信息的文件就被称之为纯文本文件,就是通常使用的TXT文件。
纯文本文件的扩展名就是TXT,使用者在Windows下可以用记事本打开查看和编辑(DOS下用edit命令的文本编辑器)TXT格式的文件。常用的Word、WPS等办公软件虽然也可以查看和编辑文本文件,但这些强大的字处理软件往往同时保存着许多文字的格式信息以及各种图片、声音、视频剪辑、图表等,因此它们生成的电子文件无法称之为纯文本文件。因此,如果要保存纯文本文件不建议采用办公处理软件储存文本文件。纯文本的TXT文件除了用记事本等纯文本编辑器管理外,它还可以通过相关的程序与办公系统或档案管理系统等软件关联,通过程序语言可以简单的把文本符号从TXT文件中读取出来供管理者在系统中利用和处理。TXT纯文本文件有着自己独特的优势,它是体积最小、计算机处理速度最快的一种信息储存格式,甚至某些大型管理系统直接面对TXT文件处理数据信息。档案工作者在实际工作中可以直接把档案的文字信息录入记事本软件中编辑处理,这样无论今后办公自动化软件和计算机硬件技术如何升级换代,管理者采用的TXT文本文件永远不会不兼容。
很多档案文件需要更复杂的文字表现格式,如红头文件的页面就无法用TXT格式来表现,有些档案文件最好不通过任何系统处理就与配图和配乐等多媒体文件相关联,这样就要用到其它格式的文本来储存。根据《电子文件归档与管理规范》(GB/T 18894-2002)规定的文本文件通用格式,除了TXT格式之外,还有XML和RTF格式。后两者的出现就是为了解决文本格式的编辑及文本与其他媒体格式文件关联的问题,这两种格式的文本文件通常都是通过超文本的标签语句储存标识出文本内部的不同信息,真正做到文字的元数据与纯文本相分离并协调工作。具体来说,就是XML文件包括标签在内的所有信息都是纯文本格式的,但就是因为XML可以用纯文本的标签标识纯文本信息,使这些被标识的数据与它们自身的数据相分离,做到同样的数据通过不同的元数据辅助在解析器中可以生成不同效果的整体文件。虽然最终解析器表现出来的是多媒体甚至超媒体信息,但实际上该信息中的文本与元数据都是独立存在的,而且它们都是纯文本的,这就是XML真正优越的地方。档案工作者同样可以使用记事本来编辑XML文件,但因为标签队列的复杂性,通常可以采用XML专用的文本编辑器来编辑,如XML Explorer等软件。RTF格式文件本身就是静止的XML文件,但RTF通常用于保存单独储存的文本文件,这种情况常见于对WORD格式文件的转化以及独立内容的档案文件的单机储存。而XML则常用于超文本和超媒体的网络信息的表现,且XML格式通过程序接口可以在大型档案管理系统中的直接应用,目前常见到的网络RSS数据聚合技术就是XML技术应用的一种表现。
二、图形图像格式文件的管理方法
相比较文本文件,图形图像在计算机中的实现方式要复杂得多,而且分类也很多,大体上可以把计算机中显示的图片格式文件分为位图(图像文件)和矢量图(图形文件)两大类。
1.位图的管理
位图又称之为点阵图,它是按位映射图像,它用像素点的亮度和颜色的数位集合来描述。在计算机内存中,由内存位(bit)组成。位图的质量与像素点的粗细程度直接有关。它本身就是记载的每一个像素的位置和色彩的值(颜色通常用六位十六进制数来表示),位图的生成主要靠扫描仪或数码相机,往往占据大量存储空间。Windows下位图通常采用BMP格式储存。
管理者在管理位图文件的时候会遇到位图格式文件体积过大备份不方便的困难,其实对于有些非技术性图片采用JPG格式来储存就会很方便。JPG格式就是对于BMP格式文件的一种压缩格式,它采用的是被称之为JPEG的静态压缩技术,这种技术针对图像数据的很大冗余和人的视觉对边缘变化不敏感的特点开发而成。JPG格式也是《电子文件归档与管理规范》(GB/T 18894-2002)规定的通用图像文件格式,通常以JPG为扩展名。管理者在管理JPG图片时要注意JPEG压缩图片的压缩比率文件,其比率通常按百分比来计算,压缩比越大图像文件体积越小,图像质量越模糊,反之则文件容量大,质量高。很多图片浏览软件都有转换压缩格式的功能,管理者可以通过Windows自带的Windows图片和传真查看器软件或ACDsee等应用工具软件浏览和管理BMP和JPG格式的位图文件。在转换的时候可以先用软件打开BMP文件然后选择另存功能把BMP图片另存为JPG格式图片就完成了转换过程,在转换的时候管理者也可以通过设置来调节图片的压缩比率。
《电子文件归档与管理规范》(GB/T 18894-2002)中规定的另外一种通用的电子文件用图像格式是TIFF格式。TIFF (Tagged Information File Format) 是一种不失真的 24-bit 彩色图像格式,是设计用在跨平台的使用上,所以为大多数的系统和图像编辑软件所接受。唯一的缺点就是 TIFF 本身有一些连自己都互不相容的版本,所以不同的图像编辑软件之间也许无法读取对方的 TIFF 文件。但这个文件格式在新版的图片工具软件如 Photoshop 和 CorelDraw 中已经得到了解决。同样,TIFF格式的图片文件也可以通过上述图片工具软件来管理。
2.矢量图形的管理
矢量格式的图形文件使用曲线和角点来记录文件信息,采用了这种方式的图形无论被放大多少倍都能够保持图形非常清晰,但是它不能用来表达像素复杂的图像。矢量图形的特点是色块鲜明,线条清晰,常用的矢量图形格式有AI、FH9、SWF等。由于和位图相比矢量图体积很小,因此他很适用于网络的传播,目前很流行的FLASH动画就是采用矢量格式的图形。
在电子文件管理应用上矢量图形通常用来管理科技档案的图形、图表及模型图、建筑图、设计图等,多见于计算机辅助设计的专业领域。
三、视频格式文件的管理方法
视频格式文件由图像格式文件发展而来,将连续的位图接连显示就成了动态的视频文件。因此未经过动态压缩技术处理的视频文件往往体积巨大。例如在VGA显示中,存储分辨率为640×480有256种色彩的一帧图像,需要307200字节,若要达到每秒30帧的动态显示,每秒需存储量为9.2兆字节。600兆字节的光盘也只够存放65秒的图像数据。因此,同静态图像压缩技术一样,动态视频的压缩技术应用也很广泛,目前比较流行的视频压缩技术就是MPEG(动态压缩)技术。
针对全屏未压缩AVI的视频文件的巨大,动态压缩比较成功地解决了这个问题,标准的MPEG1格式的视频文件也就是现在通用的VCD影碟格式,采用352×240分辨率,可以在电视机上显现出比较清晰的效果,基本上一个半小时的电影两张CD-ROM光盘不到就可以装下了。而时下最流行的DVD则是采用了国际通用的活动图像压缩标准MPEG-2(ISO/IEC13818)格式,MPEG2格式虽然比MPEG1格式的体积大很多,但对于视频图像画质的表现却比前者高很多倍。NTSC制式的MPG2格式为720像素/行×576行/帧,30帧/秒;PAL制式为720像素/行×488行/帧,25帧/秒,达到广播级电视图像质量。而单面单层DVD记录层具有4.7GB容量,若以接近于广播级电视图像质量需要的平均数据率4.69Mbps播放,是能够存放133分20秒的整部电影的。
管理者在管理视频档案文件的时候可以直接保管压制好的DVD-Video光盘,若是通过采集器或摄像机等工具收集的视频信息,可以通过专用的视频工具软件处理并保存为MPG格式的电子文件,这样就可以通过刻录机刻录到VCD或DVD光盘上面了。在管理视频文件的过程中要注意虽然MPEG的扩展名为MPG,但该类文件多见于MPEG1的格式文件,而MPEG2格式的视频文件扩展名常见于TS,在DVD-Video光盘上的保存格式却是VOD,MPG、TS和VOD格式文件都可以用视频软件来播放。
还有一些比较流行的视频文件格式也可以作为管理视频文件的格式标准来参考使用,如MPEG4格式。MPEG4诞生在1998年11月,它是一个国际标准;1999年,Microsoft开发了用于Windows Media的MPEG4─Codec;2000年2月,27岁的法国电影爱好者和德国的网络骇客共同开发了一种基于MPEG4的视频编/解码平台,同时网上也开放了免费下载。这就是DivX技术。这项技术所使用的MPEG4编码压缩技术是一种破坏性/高压缩比的视频压缩技术,分Low Motion/Fast Motion两种编码核心,采用这种技术来压缩一部4.7GB的DVD影片,同时保持相同的分辨率和AC3音轨只需要一张CD片即可。而且,MPEG4还支持流式输出,因此可以通过网络实时观赏MPEG4的视频剪辑。常用的视频压缩还有目前最为流行的网络视频音频压缩格式RM/RMVB格式,这是由RealNetworks公司推出的高压缩比网络视频技术,采用其自身的Realplayer播放器来播放;而作为苹果机常用的QuickTime格式视频通常以MOV为扩展名存储,同样也是网络视频经常采用的格式;近年来微软公司推出的WMA压缩技术凭借其高超的视频音频质量和很小的容量也越来越流行。
这些视频文件都可以通过Windows自带的媒体播放器等软件来打开观赏,当然有一些视频格式的文件必须安装自己独特的编码解码程序来播放,如前面提到的RM/RMVB格式和MOV格式的文件就必须先安装相应的解码程序才可以在任意的播放器中播放,当然也可以安装某种格式的专用播放器进行播放。
四、音频格式文件的管理方法
虽然早期的个人电脑多是采用PC喇叭发出单调的嘟嘟声表达声音,但声卡技术的发展很快把个人电脑推向多媒体时代。
现在管理者管理的音频文件通常是以Wave形式保存的,而且应用非常广泛,Wave文件其实就是波形文件,它使用三个参数来表示声音,它们是:采样位数、采样频率和声道数。在计算机中采样位数一般有8位和16位之分,而采样频率一般有11025HZ(11KHz),22050HZ(22KHz)、44100Hz(44KHz)三种。Wave文件所占容量的公式就是:存储量=(采样频率×采样位数×声道)×时间/8(单位:字节数)。因此,利用这些参数,计算机通过纪录声波波形的轨迹,将这些模拟波形转换成数字信息就可以真实的模拟出大自然中的各种声音。
管理者管理的音频文件可以根据需要保存不同的声音品质,日常生活中电话、收音机等均为模拟音频信号,即不存在采样频率和采样位数的概念,可以这样比较一下:44KHz,16Bit的声音称作CD音质;22KHz、16Bit的声音效果近似于立体声(FM Stereo)广播,称作广播音质;11kHz、8Bit的声音称作电话音质。在实际工作中,这些音频文件都保存为扩展名为WAV的音频文件。最简单的音频处理软件就是Windows自带的录音机软件,通过这个软件,管理者可以对音频文件进行简单的编辑,如音量的放大和缩小、音频文件回放速度快慢的调节、音频回放的方向、音频的质量等。对于语音类的音频档案通常可以转换为单声道低采样频率和低采样位数来保存,因为语音在被压缩之后不会有太大的变化,人的声音仍然可以听得清楚,但音频文件的体积却被大大的缩小了,处理速度也变快了,这样就便于管理者管理。还有一些比较专业的音频处理软件,多用于专业领域,如Sound Forge和Gold Wave等。
《电子文件归档与管理规范》(GB/T 18894-2002)中除了规定WAV格式电子文件为通用的音频格式外还规定了现在常用的音频格式MP3格式。MP3(MPEG Audio Layer 3)是一种以高保真为前提下实现的高效压缩技术。它采用了特殊的数据压缩算法对原先的音频信号进行处理,使数码音频文件的大小仅为原来的十几分之一,而音乐的质量却没有什么变化,几乎接近于CD唱盘的质量。一分钟的满采样率WAVE格式的文件有10几MB,而一分钟MP3格式的音频文件仅有1MB左右。MP3技术使在较小的存储空间内,存储大量的音频数据成为可能。拿我们常用的标准CD-ROM来说:一张CD唱盘存储的音乐与一盒卡带差不多,若用MP3格式来存储,则可存几百首。
除此之外,真正被称作计算机数字音乐的音频文件格式则是MIDI格式,MIDI文件并非像WAV或MP3那样量化的记录乐曲每一时刻的声音变化,它记录的是如“音乐在什么时刻,使用什么乐器,以什么音符开始,以什么音调结束,加以什么伴奏”等等这样的信息,所以MIDI文件本身并不是音乐,而是发音命令,MIDI文件本身只是一些数字信号而已,不包含任何声音信息。相比较于WAVE文件,只是简单描述性的MIDI文件占用的体积显然要比波形信息小得多。一首可以播放5分钟左右时间的MIDI歌曲,其容量只有百余K字节,这样的小容量决定了它必定是网络上和手机里最合适的数字音乐格式。MIDI的播放效果取决于用户MIDI设备的质量和音色。就电脑声卡而言,最为常见的手段是FM合成与波表合成。前者多用于以前的ISA声卡,FM是“频率调变”的英文缩写,它运用声音振荡的原理对MIDI进行合成处理。但由于技术本身的局限,加上这类声卡采用的大多数为廉价的芯片,效果自然不好。而波表合成所带来的效果要远远超过FM,而且在电脑上已被广泛运用,各类波表声卡、波表软件层出不穷。在实际使用中,MIDI文件通常以MID和RMI为扩展名,通过Windows自带的媒体播放器就可以正常播放和管理。
电子文件的格式和类型多种多样,管理方法又不尽相同,这就要求档案工作者在实际应用中多积累经验,多去接触不同种类和格式的文件,并掌握各种不同的软件去使用和管理这些文件和档案,清楚各种格式电子文件和电子档案的存储方法和用途,这样才能妥善保管和在实践工作中具体应用好不同格式的电子文件和电子档案。
摘自王志宇《不同格式电子文件的管理方法》