用户获取资料的新方法
随着计算机网络技术的应用和普及,人类进入了信息时代,档案部门在互联网上建立网站,以网页方式向公众提供信息和相关服务,不仅能实现大量信息资源的广泛共享,快速、广泛、深入、低成本地完成档案信息服务于社会的职能,而且可以直接迅速地获取反馈信息,准确掌握用户需求,提高服务质量。显然如何利用档案网站更好地为远程用户服务是我们所面临的新课题。
欧美国家在网站的建设方面起步较早,并且拥有大量的远程用户。本文介绍了英国档案工作者在这方面的探索。从“谁是我们网上利用者”和“用户获取资料新途径”两方面入手,着重了解在线档案资料用户的特点,并且分析不同类型用户的特别需求。这篇文章还检验已有技术或者是将来的技术方法,使这些方法运用于改善档案资料的利用情况。使远程用户与访问档案馆的用户一样,享受同等级别的服务。目前,与国外相比我们的远程档案用户并不是很多,但是随着网站不断发展,我们也将拥有越来越多的远程用户。因此我们有必要借鉴一些国外的先进经验,树立超前的服务意识,为一个潜在的相当大的群体(远程用户)提供优质的档案信息服务。
----编 者
谁是我们的网上利用者?
与档案工作人员在他们工作的过程中碰到的用户相比,在线用户通常是匿名的。在线用户可能从来不到我们档案部门来,他们可以在我们的网页上找到他们所需要的所有信息。他们完全没有察觉到他们本身就是用户,正在寻找他们需要的资料并且下载。对我们来说,认识到他们仍然是我们的服务对象,就像在我们研究室内实实在在利用档案的用户一样,以同样的方式,对他们加以考虑,这一点是相当重要的。
对于许多档案部门来讲,这标志着工作重点的根本转移。档案专业常常把重点放在用户的需求上,但主要是针对访问档案馆的用户。我们容易计算访问档案馆用户的人数,能够在相当简单的方法下了解他们的需求,常常能说服他们完成用户调查表的填写。而对于远程用户就比较难了解他们的需求,但在任何情况下,与访问档案部门的用户相比,他们都不应该被认为是不重要的。关于访问档案部门数量下降的问题,应该被看成是在改善在线利用档案资料情况下的一种结果。现在问题是,对远程用户的服务和统计还没有找到非常有效的方法。
尽管远程用户难以识别,但是可以根据相当数量的信息作出推断。例如,当前英国档案网络,在网站服务器的日志中进行数据分析。所以作为一个例子,在表一中,显示的就是2003年访问“档案汇总网”用户的来源地。
表一:进入“档案汇总网”用户的计算机地址识别他们的来源地
这些数据来自于使用访问网站的计算机域名。当然,这也并不能完全说明情况,因为许多.com和.net用户是海外用户,也可能是大学的用户,并且这些用户可能在家中直接利用档案,这些用户不是“ac.uk”的网址。通过对海外用户的身份确认能够知道他们来自哪个国家和地区。进入“档案汇总网”的主要海外用户的国家(总共超过100个国家)在表二中显示。
表二:“档案汇总网”的海外用户
加拿大
获取远程用户其他信息的方法,有在线反馈表和网站电子邮箱。“A2A网”上有一个“新用户”的信息表格,请求访问该网站的用户填写用户的基本信息和他们利用档案目录以及档案的用途。通过这些表格所收集到的信息显示,大约80%的回应者正在研究他们家族的历史,绝大多数新用户都是初次接触 “发现帮助功能”。
2002年11月,作为信息收集的一个部分,鼓励进入“档案汇总网”的用户,完成在线表格的填写,就有机会赢得一本书作为奖励。有关“你是属于哪一类”问题的回答在图表1中显示。然而,应该注意到,与为用户面对面地提供服务的准确记录相比,在这个图表中比例相对较高的档案工作者和图书馆工作人员更倾向于使用专业的邮件列表形式的反馈表。
“你是属于哪一类”
图表一:2002年11月“档案汇总网”调查回复者分析
把在线搜索软件的需求作为调查的一部分,通过不同类型的用户所要求的搜索设备,六个档案部门参加了一项用户调查。他们是国家档案馆、惠康研究院、多塞特档案部门、伯明翰城市档案馆、格拉斯哥大学档案中心等。这次调查发现大多数用户(60%)是属于个人利用。另一个用户群体(22%)是属于工作利用,这包括大学的和专业的研究人员。这项调查进一步分析了这些用户研究的专题:64%的人对于寻找家族、个人或组织的信息感兴趣,而23%的人寻找特别的论题。这两大群体之间的关联性比较高,84%的个人用户寻找家族、个人或者组织档案,85%的专业用户和教育用户寻找论题。
这是一项有意义的研究,因为它强调了提供详细的“发现帮助功能”和关于“汇总主题词指南”这两者的重要性。为了使用户看懂在线表格里的目录,“发现帮助功能”需要附带他们描述全部档案内容的另外信息。目前绝大多数档案网已经不同程度地做了这件事。因此在“AIM25网”和“档案汇总网”上,主题词术语是相当丰富的。尽管“A2A网”的主题索引级是经常变化的,“A2A网”中心团队还是鼓励人们把索引术语放入多级“发现帮助功能”的最高一层。
表三:2003年10月“A2A网”和“档案汇总网”主题词搜索数据
主题词搜索(点击带有描述的标题索引)
对于寻找个性化信息的个人用户来说,研究表明了利用较低级别类型的详细信息的重要性,这个用户群体是特别的重要。通过利用详细的条目级别的信息和清晰的路径来得到他们感兴趣的材料的复制件。这类服务等级使专业研究人员受益。
当前没有一个档案网能够完全满足所有用户的需要。“A2A网”最擅长提供详细的条目级的信息。统计数字显示经常在“A2A网”上利用目录的是那些季审法院,那里有大量的个人名字。“A2A网”上论题搜索更为困难。表三反映的是,“档案汇总网”与“A2A网”相比,通过论题搜索选项的利用频率。
为了更好地满足我们更多的在线用户,很明显,我们需要提供更多的信息(更加完整的目录)和更高质量的信息(附有主题词索引的目录),使用户通过标题更加容易利用档案。当然,我们的在线服务应服务于所有的用户,他们应同访问档案部门的用户一样得到同样等级的服务。
但是也许对于那些从未想真正进入档案部门的用户来说,在所有用户类别中,利用档案图片是另一个正在变得越来越重要的领域。一些网站通过数字化项目提供了极好的例子。在那里,档案工作者、一些信息专家和教育学者在一起工作,形成的研究成果将始终吸引学习者。这其中有许多资料基本上被挑选出来,用于特别专题的在线展览。
档案工作者经过训练,描述他们的馆藏,但是学习者以及非档案馆用户群体正在形成一种需求,就是要求运用一系列不同技巧对档案资料进行描述。同编写“发现帮助功能”内容相比,为万维网编写容易阅读的文本和编写叙述性的个人条目如同为展览编写文本一样容易。在“解释、说明”方面,博物馆专家和教育学专家比档案工作人员更有经验。
前面提到的个人用户,特别是那些调查家族历史的人,对于图片的需求是另一个重要的领域。根据英国国家档案馆提供的“1901年人口普查报告”的图片经验,证明了个人用户希望利用有关个人的详细资料,并愿意为个人研究图片支付所需费用。英国国家档案馆的文件在线服务正在建设另一个支付在线查看资料的项目(每张图片3.5磅),分成家庭历史和其他资料。
另一个首创的成功例子,苏格兰档案网络工程把1500年到1901年之间50多万份在苏格兰地区登记的遗嘱数字化,利用这些文件的图片都要支付费用(目前每份遗嘱支付5英镑)。有趣的是,这项服务实际上已经为他们创造了新的收入来源。但是这项服务对于爱丁堡档案机构和研究人员的工作来说被认为是一种威胁,因为,原先用户为了看懂原件经常要求他们进行代抄服务。
档案工作者对于利用资料支付费用有些犹豫,在线的家族历史市场是一个能够服务好的市场,我们能够提供他们愿意支付费用的资料。可能还需要很多年,家谱学者才能够在线浏览所有英国行政区域的登记,但是现在就有必要设定类似这样的目标,并且为实施作计划。基础设施所需的类似项目未必要在每个独立的档案部门中设立。
用户获取资料的新方法
我们如何找到不了解“A2A网”或者其他网址的用户?用户如何知道他们所需要的资料就隐藏在我们“发现帮助功能”或者图片之中?确保这些用户注意我们信息的最佳方法是什么?
首要工程是把在线档案的描述重点放在建立万维网的数据接口上,意味着用户为了能了解更多的内容,不得不先了解网站。由于信息隐藏在搜索引擎内,只有在他们自己的网站利用其搜索表单,才能找到所需的信息。所以档案网络被称为是“有深度”或“隐匿”的网。
不久以前,“AIM25网”可以通过搜索引擎使用“汇总级描述”。这种服务的用处是相当大的,许多用户直接通过搜索引擎进入“汇总级描述”。在2002年12月,“档案汇总网”按照这个方向,允许Google的“查询机器人”进入网站的“新闻”栏目,在那里大约有5%的“档案汇总网”的描述存在于静态的网页上。图表二显示了在这一天被做记号之后利用数量的上升,2003年完成的搜索类型的剖面图与2002年剖面图有着相当戏剧性的不同。
“档案汇总网”搜索类型的比较
图表二:“档案汇总网”在2002年以及2003年的搜索类型剖面图
从用户到达“档案汇总网”的方法的调查中显示,84%的用户直接从搜索引擎到达那些静态的页面。然后,他们中的许多用户使用带有相关描述的“索引链接”浏览站点。这就是2003年“索引链接”搜索出现戏剧性上升的原因。从这个结果看起来,用户喜欢“点击”,而不喜欢“打字”。向搜索引擎开放这些内容将满足最广泛的可能读者。当然对于利用的增长也有负面影响。在广泛利用了“档案汇总网”的说明之后,进入“档案汇总网”帮助桌面的问讯增加了10倍。其中许多是关于查找和利用档案的问题。但是有的问题根本与档案无关。
由“A2A网”提供的这些特点在表四中呈现。从“A2A网”观察,一部分搜索引擎的使用价值相对较低。这是因为“A2A网”要求用户进入首页后,为了到达“发现帮助功能”而实施搜索,而没有直接的方法从搜索引擎进入说明。
表四:转换用户到“A2A网”的站点
利用“开放初始协议”(OAI)同使用搜索引擎一样,“AIM25网”已经使得自己可利用汇集的信息。关于电子打印期刊文章作为一种共享信息方式,OAI在大学群体里开发了。但是因为它需要资料的简明信息,被编入都柏林核心(DC)元数据之中,OAI也能用于共享其他类型资料的共享信息。对于AIM25团队来说,在制定“AIM25网”数据记录的ISAD(G)数据字段到DC所需要的元素的时候,这一点已经做到了。在这个过程中,不可避免地丢失一些ISAD(G)的数据。ISAD(G)字段只有标题、设立者、范围和内容,主题和利用限制字段被映射到DC版本中。他们与整个ISAD(G)记录的URL(超级链接)相关。一条AIM25记录的DC版本的例子在表五中。
表五 都柏林核心元数据中的一条AIM25记录
贝弗里奇,威廉亨利,1879-1963,塔格尔贝弗里奇男爵一世,经济学家:煤矿危机文件
http://www.aim25.ac.uk/cats/1/5750.htm
OAI服务提供者(即对于任何OAI内容提供者可以提供搜索设备),通过HTTP(全球万维网协议)利用OAI元数据。OAI服务提供者的表单由OAI维护。在密歇根大学的OAIster搜索引擎就是一个例子,在那里,除了超过200个其他内容提供者,“AIM25网”的元数据可以被找回。
OAI特别适合汇总级的记录,类似于那些由“AIM25网”维护的记录,这些记录没有包含层次结构。“AIM25网”的记录存放在一个数据库结构中,这个数据库结构的数据字段是直接映射到DC中。这就意味着设立一个单独的工具,把这些EAD案卷变成OAI记录是极其困难的。
允许利用完整的“发现帮助功能”,不改变案卷结构的一种方法是使用图书搜索和已知的Z39.5(这个名字来自于定义议定书的美国标准的参考数据)。Z39.5在2002年里使用,设立了原型的网关,从“A2A网”和“档案汇总网”的服务中交叉搜索记录。Z39.5的缺点是同时直接搜索大量数据库是无效的,使用协议的交叉搜索是不能达到的。
在“档案汇总网”的分发版本的软件中用到的方法是混合方法,其中的Z39.95用于每天从远程EAD数据库中收集信息。对数据的索引组合到“档案汇总网”的中心“元索引”中,当用户进行搜索时,利用的就是该索引。“Spokes”分发软件能安装到档案馆,允许档案职工增加、编辑、删除他们拥有的EAD文件,同时,还能让他们通过“档案汇总网”站点进行搜索。它还能让档案馆提供本地Web站点和对他们的EAD文件的Z39.50接口。Z39.50接口意味着EAD能被其他系统搜索,这样就允许像目录索引和档案元数据的交叉搜索。
在线资源世界中的下一个主要开发就是“网站服务”的出现。这个用语是指一种结构,该结构支持单独的应用服务程序能直接被其它应用程序所调用。这就意味着资源能通过自动和其它资源的组合被构建。此刻,Google和Amazon是两大巨头,他们已经开始提供这种服务。在写作本文的时候,这些应用也能自由地结合在其它网站内。
和其它资源进行组合的这些服务程序使用的方式是通过XML格式的消息,XML是一种灵活的标签语言。这些消息通常通过HTTP从一个系统传递到另一个系统。每个服务程序包含一个机读文件,它描述了消息和回答信息的格式,这些消息能被服务程序接受到,回答信息是服务程序返回的。对网站服务的一个关键事项,它们是已存在应用上面的一个层次,它能运行在任何计算机平台上,只要它能“讲”XML语言。同样地,使用这种应用服务程序能运行在完全不同的软件平台上,只要它们能发出和处理XML请求,就没有问题。
英国政府的e-GIF框架文件强制使用XML作为2005年以后的系统间信息交换的方式。将来所能看到的是,在所有政府级别中,网站服务的技术变得越来越重要。使用网站服务背后的推动力是惊人的,Web标准组织W3C和OASIS以及像微软、IBM等工业巨头也卷了进来推动着它向前发展。
在档案世界里,在现有系统上增加网站服务接口,然后建立应用,该应用提供对任何数量的系统的交叉搜索能力,从理论上来讲是可能的。有待观察的是,在实践中这种方法究竟能达到多大规模,但是,对分布式“档案汇总网”,下列做法将会有好处,保留现有的“发现帮助功能”中丰富的元数据,而不是为了适应DC有更多限制性元数据字段而减少它。
通过允许其它计算机系统直接组合我们的“发现帮助功能”,我们正在实现这种在任何数量的其它应用和门户上展现档案数据的可能性。这将是一个世界范围的档案网,一个有精确主题的网关,一个全体的或者制度上的门户,或者一个本地的搜索服务。其它的对改进工作流的可能性允许档案人员利用和更新中心数据库。
结论
我们在线服务的用户与在档案部门利用档案的用户同样重要。如果我们构画出我们服务的全部利用的一张清晰的图片,我们需要保证有恰当计算那些用户的方法。为了吸引那些不喜欢去档案部门的人,我们需要设计如同展览会一样漂亮的网站。为了给予想要利用原始资料的用户最好的服务(或者愿意支付费用),我们要尽可能更高质量、更为详细地提供“发现帮助功能”中的信息,使“发现帮助功能”尽可能地被广泛利用。通过搜索引擎提升“发现帮助功能”的可视度是一种途径。但是,我们也需要考虑允许其他系统直接利用我们的搜索界面。这样做将允许在一个广泛的界面内产生档案数据的结论。针对不同范围的用户,甚至保证根本不注意档案的人群能够找到与他们有关的信息的位置。
档案部门不是旅游者的目的地,而是一个信息中心。访问档案馆的用户是一类人群,尽管这类用户还在不断增长,但是他们只形成了我们全部用户轮廓的一小部分。为一个相当大的群体(远程用户)提供服务需要有超前的意识而不是事后才去想。
(伊文译自《英国档案工作者》)