归档网络信息价值的元数据描述
信息技术的飞速发展影响着人们生活的方方面面,随着网络的普及与高速发展,网络信息已逐渐成为现代社会不可缺少的资源,愈来愈多的国家开始重视网络信息资源的归档保存。而如今,我们又迈入了大数据时代,网络信息资源的数量和增长方式决定了一般的归档保存项目必须采用自动选择归档模式。而元数据正是进行这一自动选择归档中关键性技术,因此在大数据的背景下,对网络信息资源的归档元数据进行研究也显得非常必要。
目前,由于缺乏基于元数据的判断标准,许多选择性网络信息归档保存项目无法相互沟通和合作,例如一些网络信息归档保存机构各自制定了选择标准。但由于这些标准缺乏普遍的指导意义,归档项目之间的合作空间较小。本文将利用基于归档网络信息价值的元数据描述,通过分析影响网络信息价值的主要因素,判断网络信息的价值有否和大小,再利用元数据的判断标准将有价值的网络信息归档保存,以求获得网络信息价值的归档最大最优化。
1 归档网络信息价值的构成要素
网络信息资源的归档,主要指的是相关主体对具有长远保存价值的网络信息,进行有针对性的捕获、整理、存储归档等档案化存储管理行为,归档网络信息资源,可以有效实现归档网络信息资源的充分开发,重现社会活动真实面目,满足相关主体的长远网络信息需求等目的。了解和分析归档网络信息资源的构成要素,有利于更好开展网络信息归档工作和相关社会服务工作,有利于消除归档网络信息资源高效利用过程中的诸多障碍。根据对网络信息价值的基本理论进行分析,笔者认为可以从以下四个方面来对考虑影响其价值的构成要素:信息来源、信息内容、信息形式和信息效用。
1.1 信息来源
当前,由于互联网的虚拟性和隐匿性,任何人都可以随意上传或下载信息数据资源,因此,网络信息资源的质量无法得到保障,信息资源真伪也无法分辨,因此信息资源真实可信与否成为制约人们应用网络信息资源的重要因素之一。真实可信性是归档网络信息资源的核心属性,真实可信的信息资源能够如实反映客观事物,为用户提供高效参考,产生相应的社会价值,如果归档网络信息数据无法如实反映和再现客观事实,那其就不具有归档保存的价值。归档网络信息来源在很大程度上决定了信息数据是否真实可信。信息来源的可靠性,往往是用户获取信息的重要评价标准,可信度低的信息来源往往被用户们所遗弃,因此信息来源对归档网络信息数据的价值有较大的影响作用。
1.2 信息内容
很多网络信息资源都具有较高的政治、经济以及文化价值,使用者可用从信息资源的内容着手,考虑个人发展需求、组织职能实现需求、社会发展需求等因素,来决定是否对网络信息资源进行利用。归档网络信息同样具有其他网络信息资源所具有的信息功能和价值,网络信息资源经过存档之后,转化为档案,具有原始记录性,进而也具有凭证作用和情报价值。使用者通过选择符合要求的归档信息,利用归档网络信息对个人、组织和社会从事各项活动等的真实记录和反映来实现其目的。同时,使用者能够利用这些信息起到知往查来的作用,有利于保持学术研究、社会工作的连续性和有效性对于进行科学决策具有不可代替的参考作用。归档网络信息的信息内容是前人的成果和经验,能够为以后的生产经营等业务工作提供依据,已经成为归档网络信息价值的重要构成要素,且内容的客观性、全面性、新颖性等也逐步发展成为归档文献信息价值判断的重要标准。
1.3 信息形式
无序的网络信息会使使用者陷入“信息泛滥、知识贫乏”的信息怪圈,从而形成网络信息指数增加与利用之间的矛盾。根据网络信息形式进行有序化整理,能够促进网络信息管理向知识管理转变,推动用户在大量网络信息中发现和开发知识,提高网络信息的利用率。因此信息形式也是归档网络信息价值的重要构成要素,主要可以通过空间域、时期、资源语言、格式等方面来对信息进行确定,从而保证信息描述的准确性和信息系统的可用性。
首先,要了解归档网络信息分布的空间,以便于于对其进一步了解,不断提高其利用率,增加其价值。其次,归档网络信息资源所处的时期同样对其价值起到一定的作用。再次,归档网络信息的语言使用情况也是影响其价值的重要因素。另外,归档网络信息的格式同样是影响其价值的一大因素。不同载体归档网络信息可能以不同的格式出现,有的计算机设备可能无法对某些格式的归档网络信息进行识别,因而会影响其可识别性和可读性,不利于价值的实现。
1.4 信息效用
信息效用是归档网络信息价值的关键构成要素,也是归档网络工作不断发展和不断改进的动力因素。信息效用作为重要的归档网络信息价值构成要素,主要体现在两个方面,即获取方式和用户利用。
首先,获取方式的易用性是影响信息效用的一个重要方面。一般来说,信息使用者总是愿意选择最容易利用的信息获取途径来获取自己所需的信息,用户对信息获取途径的选择几乎是建立在易用性的基础之上的。因此,归档网络信息获取途径的易用性在很大程度上能够提升归档网络信息在用户心中的地位。其次,用户利用也能够反映出信息效用,并能够不断提升归档信息的价值。用户利用人数多,利用总量大,归档网络信息的信息效用就越大。用户在获取了归档网络信息之后,可以进行吸收,在此基础上进行提炼加工和综合分析形成新的信息,也可以在此基础上结合原有的信息与知识进行综合,从而形成新的知识和信息。用户吸收归档网络信息,创造大量新的信息,产生新的思想、观点、理论以及方法,是原有归档网络信息自身价值升华的一种体现。
2 归档网络信息价值的元数据描述方案
为了实现网络信息的自动选择归档,需要建立网络信息价值的判断标准,并利用元数据这一工具进行描述。通过借鉴现有的信息资源管理元数据标准,可以从网络信息的来源、内容、形式、效用等角度构建描述归档网络信息价值的元数据方案,并利用HTML的元标签和XMLSCHEMA实现归档网络信息价值的自描述,从而为建立网络信息的自动化筛选机制奠定基础。
2.1 归档网络信息价值元数据的参考标准
2.1.1都伯林核心 DublinCore (DC),即都柏林核心元素集,它产生于1995年,由15个基本词构成,目的是为了帮助人们尽快地在网上发现所需要的有效信息资源,从而规定网络信息资源的提供者对资源属性信息进行描述,并对其内容进行编目、定位。都柏林核心元素集具有简练、易于理解、可扩展性、能与其他元数据进行衔接等性能。
2.1.2EAD EAD (EncodedArchivalDescription),即档案编码著录标准,它是模式化表达档案检索工具的内容、形式等各部分结构的一种规范形式,其实质是SGML及XML在档案界的具体应用,主要用于描述档案和手稿资源,以及利用网络检索和获取档案手稿类信息资源②。EAD 共有146个元素,这些元素都包含在(ead)(/ead)中,也就是说以该元素作为根元素,它以下又分为EAD 头标(eadheader)、前面事项(frontmatter)、档案描述(archdes)三个高层元素,每一个高层元素下再包括若干子元素,某些子元素下又包括若干孙元素项,类似于树形结构。
2.1.3GILS GILS (GovernmentInformationLocatorService),即政府信息定位服务,是一种支持公众搜寻、获取和使用政府公开信息资源(包括网络信息资源)的开放环境下的分布式信息资源及利用体系。最初由美国政府提出。1995年美国国会通过«PaperReGductionAct»,以法律形式规定了各联邦机构必须以GILS 来组织和向公众传递政府信息,这就确立了GILS在政府信息工作中的作用。此外,加拿大,澳大利亚,以及政府间组织(如7国集团环境与自然资源管理项目)也纷纷效仿美国政府,从1995年起开始利用GILS来建立或推动政府信息的广泛利用和共享。GILS的基本构建要素是对信息资源进行描述的元数据,它是一组相关元素的基本词的集合,用来描述信息资源的内容、位置、服务方式、存储等等方面的属性。
2.1.4Premis Premis (PreservationmetadataImplementationStrategies),中文翻译为保存元数据实施策略,通常情况下直接被称为“保存元数据”。它是由OCLC 和RLG 在2003年发起的项目。其主要目标是,在保存元数据框架的基础上,关注保存元数据在具体实践过程中的实施问题,提出在数字资源长期保存过程中,实施保存元数据的具体指导方案。2005年PREMIS,完成了其最终报告“DataDictionaryforPreservationmetadataFiGnalReportofPREMIS WorkingGroup”。此后PREMIS工作组先后发布了多个报告,且对数据字典不断修改完善。2012年发布的“PREMISDataDictionaryforPreservationmetadaGtaversion2.2”为其数据字典最新版本。PREMIS工作组将“保存元数据”定义为在一个仓储系统中对数字保存过程进行支持的信息,它应当具有支持和证明数字保存过程的信息以及提供长期维护资源的信息。
2.2 归档网络信息价值元数据的元素
以上元数据标准都有各自的有点,但同时也存在一定的缺陷,DC 对网络信息资源的信息效用的描述有所欠缺,信息的利用状况不能得到有效的描述;EAD 层级较多,能将旧的纸质检索工具较好的转换为新的电子检索工具,但由于网络信息资源的无组织性,因此描述难度较大。GILS主要适用于政府信息及政务公开,对于普通的网络信息的归档描述效果欠佳,PREMIS适应性强,元素丰富,但是由于其数据字典没有定义知识实体的语义单元,因此在语义网中难以实现知识的组织和描述。因此根据归档网络信息价值的构成因素,笔者参照了DC (都伯林核心)、EAD (档案编码著录标准)、GILS (政府信息定位服务)、PREMIS (保存元数据实施策略)等当前国际上认可的网络信息价值元数据描述标准,归纳总结出归档网络信息价值元数据的元素主要包括以下四个方面,如下表1所示:
2.1 网络信息来源元素
网络信息来源元素能够反映出归档网络信息的来源,对其产权、所有权进行描述,主要包括Author (形成者)、Publisher (发行者)、Contributor (其他参与者)、RecordSource(数据来源)等。其中,Author (形成者)指的是对其创建的归档网络信息资源内容承担责任的个人、群体或机构。归档网络信息资源作者的科研水平、研究趋势等在一定程度上能够顾反映当前某一学科或学术领域的发展动态和科研潜力,因此,归档网络信息资源的Author (形成者)可以反映出该资源的价值水平。Publisher (发行者)和Contributor (其他参与者)作为贡献者,其资金雄厚程度、社会信誉高低、专业水平强弱等多方面因素均会影响归档网络信息资源的价值水平。SourceofDate (数据来源)能够反映出网络信息是来源于以网络连接起来的信息资源,还是来源于以网络形式出版的信息资源(网络出版物),亦或是网上交流的信息资源,如电子邮件、新闻组等。相较于其他类型的信息资源,网络信息资源的质量高低不一,通过网络信息来源元素可以在很大程度上揭示出该资源质量的可靠程度。
2.2 网络信息内容元素
通过网络信息内容元素通过对资源内在进行描述,能够揭示出归档网络信息的本质内容,主要包括Title (标题)、Subject (主题)、Abstract (摘要)、Keywords (关键词)、ScheduleNumber (目录号)等。其中,Title (标题)指的是网络信息资源的Author或Publisher给资源定的名称,作为全文的“文眼”,能够对该网络信息资源的主旨进行归纳,点明中心,彰显资源的价值,从而能够吸引读者的眼光。Subject (主题)和Keywords(关键字)指的是网络信息资源的主题和关键字,一般指的是描述网络信息资源的主题和内容的关键词或短语,能够直观而且鲜明地表述网络信息资源所要论述或表述的主题或观点,使读者在阅读信息资源正文之前便能够对资源整体一目了然,因而能够影响读者作出是否花费时间来进行信息采集、储存、阅读的决定。Abstract (摘要)是对网络信息资源的内容的准确压缩,即针对网络信息资源不加注释和评论的简单陈述,因此其是读者判断网络信息资源归档价值的重要依据。ScheduleNumber (目录号)指的是归档网络信息资源在全宗下所属目录的编号,是独一无二的,能够反映出信息的内在特征。
2.3 网络信息形式元素
通过对网络信息形式元素对网络信息资源进行描述,能够反映出网络信息资源的外在属性,主要包括Date (年份)、Type (类型)、Format (格式)、SpatialDomain (空间位置)、LanguageofResource (语言)、Profiledesc (范围)、Rights (管理权限)等元素。其中,Date (年份)指的是网络信息公开发布、出版、更新和修改等可获得性相关的日期,能够反映出所描述的网络信息资源所处的时期。受社会、经济、科学、文化等多方面因素的影响,不同时期的网络信息数据具有不同的价值。Type (类型)指的是网络信息资源属性的类型,包括文本、图像、声音、软件、数据以及交互式应用等,读者可以通过对类型的判别从而对信息价值进行判别。Format (格式)指的是被描述的网络信息资源的数据形式和尺寸,能够明确在操作该资源时应该采用什么样的软件和硬件,在进行网络信息资源归档时,应通过此元素明确该资源的可操作性,保障归档网络信息的可识别性和可读性。
SpatialDomain (空间位置)指的是网络环境下信息资源的空间分布情况,在当前网络信息分布很广,离散程度加剧的情况下,明确其空间位置,有利于加强对其的了解,提升利用率,增加价值。LanguageofResource (语言)指的是被描述的网络信息资源内容的描述语言,即检索语言,检索语言能够描述出信息资源的内容特征、外表特征并表达情报提问,能够将信息的归档存储和检索紧密联系,并促使归档人员和检索人员紧密联系,并取得共同理解、实现交流,因此LanguageofResource 有利于归档网络信息价值的实现。
Rights (管理权限)指的是网络信息资源的版权声明和使用规范,网络信息资源的管理权限向社会公众告知了发布者对该资源被使用这一事实的立场和态度,可以在一定程度上避免侵权的现象,这一元素能够影响读者是否归档保存该网络信息资源。
2.4 网络信息效用元素
网络信息效用元素能够反映出信息资源使用者对该网络信息的使用程度,从而鉴别出网络信息的价值大小,甄别出其是否适合归档,主要包括Purpose (目的)、PointofConGtact (联系点)、Browse Number (浏览次数)、Availability (获取方式)、Access ConGstraints (获取限制)、ConsumerUse (用户利用)等元素。其中,Purpose (目的)指的是用户获取网络信息的目的,用户往往会充分认识到信息对实现自己目标的重要性,从而选择那些对实现自己目的起决定性作用的、价值较大的信息,也会根据自己目的实现的紧迫程度来将信息获取需求转化为信息获取行为。PointofContact (联系点)往往指的是网络信息资源的国家、省或州、市、街道、网址、邮编、电话、传真等。联系点是否普遍、使用者购买是否方便快捷等,也是影响归档网络信息价值的重要因素。浏览次数(BrowseNumber)能够反映出当前该网络信息资源的受关注程度,归档者能够判断出该资源是否代表相关发展趋势和动态,进而归档其是否具有归档价值。Availability (获取方式)主要包括在获取过程中的网络信息资源的载体情况、使用该资源必备的技术、如何获取信息、可获得时期以及可使用链接等。AccessConstraints (获取限制)则指的是网络信息资源一般获取时的获取限制或法律必备条件、信息资源安全分类的具体规定、信息资源制作者制定的关于此信息资源获取或传输的控制要求。获取方式和获取限制这两者在很大程度上影响着获取途径和方式的易用性,一般来说使用者往往愿意选择获取途径和方式易用的网络信息。ConsumerUse (用户利用)能够反映出用户在对网络信息利用完之后是否起到了改变知识结构、指导学习生活、创造新的信息等,从而能够反映出原有网络信息价值的高低以及归档是否具有必要性。
3 归档网络信息价值自描述的实现方法
由于网络信息呈指数增长,其归档手段必须是自动化的。为了便于机器处理,需要建立归档网络信息价值自描述的机制,由机器人自动抽取网络信息的价值元数据,或者在网络信息价值元数据与网络信息本身之间建立联系,从而保证归档网络信息采集机器人能自动根据信息价值筛选出需要归档的网络信息资源。笔者认为有两种方法可以实现归档网络信息价值的自描述,一是在HTML的头标签中嵌入价值元数据,二是用XML进行描述。
3.1 在HTML中用元标签进行描述
在HTML的head标签中,可以加入一些meta标签,对网页的形成者(author)、摘要(abstract)、关键字(keywords)等进行描述。搜索引擎刚刚兴起的时候,这些标签往往会影响网站的排名,于是造成了元标签的滥用。搜索引擎改变了排名算法之后,这些元标签的内容对网站排名的影响甚微,于是元标签往往被网络信息的形成者所忽视。SEO 兴起之后,被忽视的元标签重新受到人们的重视。HTML 中最重要的meta 标签包括HTTPEQUIV,NAME,CONTENTT。其中HTTP-EQUIV 类似于HTTP 的头部协议,它向给浏览器回应一些信息,用来帮助准确显示网页内容,因此我们可以将归档网络信息元数据的元素作为name的值填充到meta标签中,用content的值说明每个元素的值。通过这种方式,可以将网络信息价值元数据与网页联系起来,在自动归档实践中,可以通过机器人自动判断网页的价值。
3.2 基于XML的归档网络信息价值描述方案
XML (ExtensibleMarkupLanguage)是由万维网联盟定义的一种用来标记电子文件使其具有结构性的标记语言,可以标记和定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。在可扩展标记语言XML 中,最重要的概念是文档类型声明DTD(documentTypeDescription)。XML的DTD 用于定义逻辑结构的限制和支持预定义存储单元的使用。一个XML文档内容的各部分都必须遵守相关的DTD 限制。通过DTD 可以为XML文档指定一种语法,确定文档中允许出现哪些标签,这些标签以何种顺序出现,以及哪些标签可以嵌套,从而确保XML文档是有效的。因此可以根据对归档网络信息价值的分析,利用XML语言定义一个用于价值描述的XMLDTD,用于实现网络信息资源的自动归档。