档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案信息化 » 档案数字化 » 正文

档案信息发布语言

放大字体  缩小字体 发布日期:2018-12-24 17:42:15    浏览次数:17    评论:0
导读

网络档案信息的发布与网络中各类信息的发布一样,必须使用大多数计算机都能够识别的语言。根据表达形式不同,档案信息以四类计算机文件格式存储:文本文件、图像文件、音频文件、视频文件。

档案信息发布语言

网络档案信息的发布与网络中各类信息的发布一样,必须使用大多数计算机都能够识别的语言。根据表达形式不同,档案信息以四类计算机文件格式存储:文本文件、图像文件、音频文件、视频文件。

图像文件多为扫描后形成的文件。图像文件一般较大,为此许多机构对其进行压缩后存储。但在档案管理工作中考虑长久保存的需要,还是以不压缩的格式存储为宜。目前图像文件的发布有三种文件格式可以选择:一是在网页中与各类信息一起显示的GIF格式;二是供利用者在网络上下载的以JPEG标准压缩的格式;三是为长久存储之用的不压缩的TIFF格式。一份图像文件最好以三种格式同时保存。

网络环境中的声音文件与视频文件虽然已有很多,但就传输速度而言,这两种类型的文件格式都还比较不稳定,仍处于不断发展的过程中。目前声音文件的发布主要可以选择二种格式:一是WAVE格式;二是成熟,RealAudio formatRA)。此外,随着技术的日渐成熟,MP3已渐渐成为新的声音数据压缩标准。

视频文件格式包括:MPEGAVI(Audio Video Interleaved)DLMOVGL等。其中MPEG格式是ISO国际标准之下制作视频文件的标准格式,使用较为普遍。

本书重点研究的是以文本文件形式存储的档案信息的发布语言。

一、置标语言

由于处理平台不同,文本文件会有不同的文件格式。在网络中为了使文本信息能在不同平台间交换,同时又能保留其内容原有的结构,常常通过标记规则来描述文件内容结构,并以独立于任何软硬件的格式进行储存。SGML近年来被广泛用作文本结构标记的通用方法,成为国际标准组织所接受的文件交换标准。

SGML的全称是“Standara Generalized Markup Language” ,即标准通用置标语言。置标是指为了传达有关文件的信息、标识文件各部分的结构而添加到文件中的事先规定的文本。为了标识某些信息而加入一些标记之后的书面自然语言就可以被称为置标语言。SGML实际上是一种为了计算机处理而设计的置标语言,是对置标所用标识符、标识规则做专门规定的一套标准语言,其中所用到的标记,往往使用代表一定含义的文字或数字表示。

SGML是一种非常复杂的结构,其作用主要用于定义文献模型的逻辑结构和物理类结构。文献的类型是多种多样的,有图书、期刊、档案等各种形式。文献类型的差异是由文献的物理类结构特征和内容结构特征所决定的。如图书、期刊等文献其物理类结构从总体到局部由卷、期、封面和连续的页码组成;同时图书的内容结构又由书名、作者、章节名和段落等组成。根据计算机处理信息的特有方式,最科学的方法就是把文献分解为若干个结构单元。因此,要实现文献处理自动化的关键就是建立一个能全面反映文献的物理类特征和内容特征的规范模式。SGML就是通过标识的方法来实现这种规范模式的国际标准。简单地说,SGML不是一种适用于某类具体文献的直接现成的标识语言标准,它是创建标识语言的元语言,可以用它来创建其他语言。目前常用的置标语言都属于SGML体系,其中比较引人注目的是HTMLXML

HTML全称是“Hypertext Markup Language”,即超文本置标语言,其自身是纯文本文件,在因特网和内部网上广泛采用,主要用于编写发布各种信息的网页。万维网激发了SGML简化版本的开发,HTML就是对SGML进行大量简化后的一个应用。最初HTML的作用是用于标记结构,随后的发展加入了大量的特殊标记(tags),使网页的设计者可以控制信息显示或打印时的外观,增强了网页设计者的创造能力。HTML的缺点是标记相对较少,缺乏适应性,不能支持特定领域如档案专业领域的标记语言。

XML的全称是“Extensible Markup Language” ,即可扩展置标语言。它是国际标准化组织推荐的第二代网页发布语言,是国际上目前正在推广的标准格式。XML也是从SGML所衍生出来的简化格式。与HTML一样,其目的都是希望在网页的制作上,有一个标准而又切实可行的简单标记语言。不同的是,HTML是单一的固定格式,而XML是可以扩充的灵活格式。XML为网络应用开发核心技术,扮演着网络世界“国际语言”的角色。XML也是一种元标记语言,使用者可依据自己的需要来设计标记,任何满足XML命名规则的名称都可以标记,其产生的文件具有完整的结构,又不失简单的特性。比起SGMLXML要简单和灵活许多。它删除了SGML中不易操作、与因特网无关的部分,把很多底层非常复杂的语法结构隐藏起来,使得整个结构变得灵活又容易扩充。因此使得用开发应用程序软件来处理XML格式文件,成为一件比较容易,而不是遥不可及的工作。

于是,出现了RDF。其全称是“Resoure Description Format” 即资源描述格式。它是一个使用XML语法的数据建模语言的应用程序。如果XML具有说语言的能力,那么RDF就是特定的语言。EDFXML提供了元数据编码定义,就像是一个公用的翻译器,为不同的固定目标之间的数据进行翻译。其设计目的是提供一种强有力的表述、交换与利用元数据的机制。它提供了在互联网络上交换计算机可读数据的应用软件之间的互操作性。

二、EDA及其在我国档案管理领域的生命力

前面提到,SGML不是一种直接现成的标识语言标准,它是创建标识语言的元语言。根据SGML所确定的原则,可以进一步生成某一领域特定文献所需的标识语言标准。这些特定的标识标准被称之为DTDdocument Type Definition,文件类型定义)。DTD定义每一个元素之间的关系。给每一个使用DTD创建的文件一个通用的视觉效果。许多不同领域的机构开发了自己的DTDHTML就可以看作是一个非正统的DTD,而EAD就是应用于档案管理领域信息发布的DTD

EDA的全称是Encoded Archival Description,国内对它已有一些译法,有人将其中的Description译为著录,笔者认为这种翻译容易使不了解置标语言的人产生歧义,将EDA与传统的档案著录内容相混淆,将其译为“描述”可能更为确切。这样,可以将EDA理解为在文本性档案信息发布中采用的结构描述标准,以便使档案信息在网络中广泛地传播。EDA是模式化表达档案信息的内容、形式等各部分结构的一种规范形式,它的定义包含了结构化的数据层次,可完整地描述档案信息的层次关系,表示层次间的相互关系并加以连结,并能在网络检索工具中反映描述档案信息数据本身的内容,以此形式发布的档案信息可在任何计算机平台上进行查寻、检索、显示、交换。

国内已经有一些学者对EDA的结构与内容等技术指标作了很好的介绍,本书重点探讨一下EDA在我国档案管理领域是否具有生命力。

在国际上,EDA己经被很多档案人员认同。他们提供广泛的文档对它进行测试。EDA已成为一个非常专业化的工具,专门服务于需要进行信息交换和共享的特殊领域。在美国就有近35个科研院所、图书信息机构、大学图书馆、手稿收藏部及各种综合档案馆、专门档案馆的网站中运用EDA标准。我国在网络上发布信息的档案机构,还没有一家采用类似的标准。其中的原因在于我国档案界还不了解这个标准和相关的技术,从而不能决定它是否适用于我国的档案管理领域。这反映了我国档案信息网络化建设中的一个重要问题:我国的档案信息网络化建设目前还处于简单地效法手工管理方式的阶段,无论是发布信息还是建立检索工具,都没有摆脱传统的工作思路和工作方法,没有研究和采用适合网络环境的技术与管理业务流程。

EDA标准的优势及使用的意义在于以下几个方面:一是采用自然语言构成的标记来描述文件的结构和其他属性,清楚地指示文件各部分的内容是什么,置标的语义可以十分明显地从字面上看出来;二是可以表现一个全宗内各个级别的档案目录信息及全文信息,最终形成一份全文著录的文件,能实现表达等级结构的能力,充分反映一个全宗的全貌,方便检索与链接。利用者可以完整地利用一个全宗档案的从全宗到类别、再到案卷及文件的完整的信息,在档案原件已生成了数字副本的情况下,还可以通过置标链接直接查看数字副本的内容;三是EDASGML标准制定而来,因此采用EDA标记的文献经转化可以直接在网络上发布,实现档案资源共享。

EDA标准目前在我国实现的障碍体现在以下几个方面:一是我国档案信息网络化建设还停留在对传统档案管理的简单重复阶段,缺乏对网络化过程中各种必要的技术问题的关注,而这些技术问题可能引起档案管理工作某一方面的根本性变化。如在传统的档案管理过程中,主要以文件目录、案卷目录、全宗目录等为检索工具。利用者必须到馆进行利用,检索都有档案工作人员指导进行。为利用者提供的信息元素不标识、逻辑结构不显示,造成的障碍不是很大。提供的信息内容不具体,利用者可以直接咨询档案工作人员或直接调出档案来看。而在网络中发布档案信息,面对的是远程用户、是异地计算机检索,如果提供的信息内容不具体,利用者无法调卷或直接咨询档案工作人员。因此,在网络信息发布过程中提供档案信息,与传统档案管理所能提供的内容和方法有很大的差别。如果没有以远程用户的利用效率为衡量标准,而是简单地把手工管理中的各类信息照搬到网络中,就会暴露一定的局限性;二是对EDA标准的具体实现方法国内还没有档案机构进行实践。采用EDA标准,要对发布的档案信息内容进行各个层次的详细置标。置标内容纷繁复杂。由于对档案信息内容的置标是对一个全宗从全宗到类别、再由类别到案卷、再由案卷到文件的从总到分的多级的完整的描述,或者说是对一个全宗内的各个级别的目录信息乃至全文的总体描述,所以,置标后形成的文件往往长达几千页、几万页。这项浩繁的工作如何实现?第一种方法是利用编辑工具手工直接编写,这将是一项海量的任务;第二种是对现有各种格式或数据库中的信息编程转换,并根据数据库内容的变化实时动态地生成。这是一种可行的方法。然而这要以以往对档案信息所做的前处理工作或称数据准备工作为基础,而为自动化所做的数据准备工作不充足正是我国信息化建设的一个弱项。此外,这种编程转换又要涉及很多目前我国档案工作人员尚不熟悉的技术问题。所以,我国档案界在传统管理与现代技术之间必须实现一定程度的沟通。

三、页面描述语言与PDF

通过计算机语言发布信息时要能够反映一份文件的两个侧面:结构和外观。结构决定从整个文件到组成要素(诸如字符、单词、段落和标题)的划分方法。外观就是文件显示在屏幕上或打印在纸上的视觉效果。置标语言中虽然有一些控制外观的标记,但其主要作用在于描述结构,它标识文档中被强调的部分以及各部分之间的联系。随着技术发展,人们越来越重视文本的外观,于是又设计出直接指定文档外观而不用结构标记的方法,即页面描述语言。页面描述语言用于在存储、复制、显示文件时精确地描述它们的外观。如:字体及其大小、页边距和行距、标题的表示、图形的定位以及数学或其他特殊符号的显示等等。

目前最主要的一种页面描述方法就是PDFPDF全称为Portable document Format,译为可移植文档格式,由Adobe公司开发,它是一种通用文件格式,是全世界电子文件分发的公开实用标准。PDF能够保存任何源文档的所有字体、格式、颜色和图形,而不管创建该文档所使用的应用程序和平台。PDF文件是压缩文件,任何人都可以使用Adobe公司提供的免费软件(Adobe Acrobat Reader)共享、查看、浏览和打印PDF文件。使用相关软件,还可以将任何文档转换为PDF格式。PDF在电子期刊界得到广泛采用,成为出版业新兴的工作流程标准。它还在金融服务业、政府调控性行业和政府部门发挥着重要作用。世界各地有155家以上政府机构都在共同使用PDF文件。 在档案界,有关PDF的应用也有了一些规定。如美国国家档案与文件署(NARA)关于电子政务项目要向美国国家档案馆移交的永久文件发布了三项规定:一是同附件一起的电子邮件移交规定;二是经过扫描的文本图像移交规定;三是PDF格式文件移交的规定。关于第三项电子文件以PDF格式移交的规定包括:1. PDF格式的所有文件;2. 从各机构的专门格式(如办公字处理系统的格式)转换为PDF格式的文件;3.从扫描的图像文件(如TIFF格式)转换成PDF格式的文件。可见,关于PDF的未来发展颇值得档案界给予适当的关注。

结构描述与外观描述不是两个对立面或竞争面,而是相互需要,二者功能可以相辅相成,并不冲突,二者都应该受到重视。国外许多数字图书馆对每个文档都保存两种版本,以满足利用者不同需要。档案界也可以采用这种方法。


 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201812/4914.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1