网络档案信息利用流程分析
(一)利用者需求分析
在网络档案信息利用中,利用者是主体,是档案信息的需求者和检索系统的直接操作者。为此,在网络档案信息利用中首先就要克服以往档案利用中坐等利用者上门的观念和做法,加强对利用者及其利用需求的调研、了解和预测。掌握利用者对档案信息的需求是实现网络档案信息服务的前提条件。
本书在第三章第二节网络档案计算机检索系统的开发部分,对利用者的利用需求进行了分析。在网络环境下,档案信息利用者较之传统档案利用者出现二极分化的趋势:一极是网络档案信息利用者日趋大众化、社会化。这部分利用者利用档案信息没有明确目的,可能仅仅是出于休闲要求和个人爱好。对于他们来说,只有发现具有新意、能引起其兴趣的信息时才可能仔细阅读。这就要求档案机构及时发布最新开放馆藏的信息和最新消息,提供丰富翔实、特征鲜明、内容新奇的信息内容,同时还可以增加一些趣味性强的栏目,在传递信息和知识的同时,赋予一定的情趣和艺术感染力。另一极是网络档案信息利用者趋向专深化和特殊化。这部分利用者是希望获得某种特定档案信息的查找者,他们是带着问题来访问档案网站的。他们的利用需求与普通利用者有着质的区别,不仅自己收藏了大量相关信息,而且时时跟踪最新发展方向与动态,补充已有的资料,以使个人拥有的某方面信息达到一种极致状态。这些利用者的利用需求更具专门性,对于他们不仅要有档案信息内容的保障,而且还要提供有效的检索工具和深入的、专业化的信息服务。
目前,关于如何掌握和分析利用者的利用需求还有待实践探索。档案机构可以通过网络问卷形式获得一些统计信息。如北京市档案局在2003年6月底的网上调查栏目,设计的问题就是是否满意改版后的档案网站。针对各种统计数据,可以利用数据挖掘等相关技术,对流通记录、检索提问、网络问卷、网络论坛与留言等进行分析,统计档案信息检索和阅览情况,对拒阅信息和频繁阅览信息进行统计分析,发现利用者兴趣模式。
(二)检索提问
网络环境出现之前的档案检索,是根据利用者提出的要求由专职档案人员进行计算机操作,再把检索结果提供给利用者。其不足之处在于:这是一种委托性质的检索,利用者没有机会直接操作检索系统,如果利用者未清楚地说明想要查找的是哪些内容,会直接影响检索效果。由专职档案人员进行检索操作,利用者需要等待,影响了检索的及时性。
在网络环境下,利用者直接操作检索系统,通过作为网络节点的计算机,同网络中的检索系统直接进行对话,以问答的方式,获得检索结果。利用者无论何时何地都能调用检索系统,查到所需的各类档案信息,不超过几秒钟时间检索要求即能得到响应,检索迅速、方便。网络档案信息利用最基本的要求是利用者能够进行检索提问,而形成一个有效的检索提问主要应具备以下几个方面的基本技能:
1.分析检索课题的主题
分析检索课题的主题,要根据检索课题的主题结构、类型、专业范围、性质来进行,使检索课题形成若干个既能代表信息需求又具有检索意义的主题概念。分析所得的主题概念要尽量能够反映检索的需要,对所需信息的主题概念有几个,概念的专指度是否合适,哪些是主要的,哪些是次要的等方面都要有所考虑。
2.确定检索途径,形成提问词
在检索中,首先要指定检索途径。检索途径是指在检索系统设计时期确定的档案信息数据的项目。检索时利用者要根据需要选择适当的检索途径。从理论上讲,档案信息数据库中任何一个字段项都可以作为检索途径。但实际上有些项目(如密级等)如果单独作为检索途径,则将检出占半数以上的档案信息,就失去了检索意义,这些项目只能作为逻辑组合中的一些辅助的检索途径。利用者的提问一般针对主题词、分类号、责任者、时间、档号、关键词等主要的检索途径。
利用者根据检索需要确定检索途径后,要将检索的内容形成提问词。提问词要尽量做到科学、准确、规范化。在形成提问词过程中最大的障碍就是检索语言的问题。检索系统若采用的是人工语言有利于提高检准率,但不适合普通的网络利用者;若采用的是自然语言适合普通网络利用者的使用,但又降低了检准率不能满足专业利用者的要求。所以笔者提倡网络档案信息检索系统要能兼具关键词检索与主题词检索,这一点在第三章中已有所论述。随着检索系统的发展,形成提问词对于利用者来说将越来越简单。目前,有些档案检索系统采用了自动标引和半自动标引,为此要求在这类系统中有一个将提问词与著录标引用词统一起来的词表管理系统,将利用者提问的自然语言转化为规范化的检索语言。检索系统借助于同样的检索词典,将提问词和著录标引用词都转化成规范词,是提高检索效率的最好途径。
3.指定检索的比较部位
指定检索的比较部位是指给出提问词的有效位数,也就是给出检索途径中实际参加检索查比的数据项目由左数起的字符个数。提问词的比较部位常有如下二种:
完全一致,即要求提问词与检索途径中的所有部位都符合比较条件。
部分一致,提问词与检索途径某一部份符合比较条件。部分一致又可分为四种情况:一是前方一致,要求被检索项目的前方与提问词符合比较条件;二是后方一致,被检索项目的后方与提问词符合比较条件;三是中间一致,被检索项目中存在某一段与提问词符合比较条件。四是指定位一致,被检索项目中从指定位开始的若干字节与提问词符合比较条件。
4.构造逻辑检索式
逻辑检索式是由提问词、逻辑比较符和逻辑关系符组成的逻辑表达式,它一般用于一个或多个检索途径的组合查询。好的信息检索系统都能提供逻辑组合功能。
逻辑比较符一般有>(大于),>=(大于等于),<( 小于),<=(小于等于),=(等于),<>(不等于)六种。针对每一个检索项,可以利用逻辑比较符确定它与提问词的关系。
逻辑关系符一般有AND(逻辑与)、OR(逻辑或)和NOT(逻辑非)三种。逻辑与关系,是表示同时满足若干条件的情况。逻辑或关系是表示若干条件中满足其中之一即可的情况。逻辑非关系是表示不满足某一条件。
5.提问词的加权
在档案检索中,提问词是表达主题概念的。而一个主题概念可能要几个提问词的组合才能表达清楚。因此一些复合概念是用概念之间的组配来表示的。这种组配关系除了用定性的逻辑表达式表示外,还可以用定量方法,即从量的方面给以限定和表示,指出各概念之间的重要程度。在表达利用者的检索时,对检索逻辑式中的每个概念给予一定的数值,以表示其重要程度,这称为概念加权。检索中,该检索与档案信息匹配时,则同时计算所有已匹配检索概念权值之和,只有当某一档案信息的概念权值之和达到预先规定的数值时,才能被检索出来。这个预先规定的数值称为阀值,利用加权法的检索也叫定量检索。
加权是给概念加权,即无论这一概念是用什么词来表示的,它们都具有同等的权。如同义词,由于它们的概念是等同的,所以权也是等同的。例如“档案检索”与“情报检索”都是“文献检索”,可以规定他们有相同的权数。又如“自行车”与“脚踏车”更应有相同的权值。
在一个好的网络档案信息检索系统中,一般会提供很详细的帮助系统。上述这些形成检索提问的基本技能,在帮助系统中都会详细加以介绍,而且会有许多生动的操作实例。对于这些技能,每个检索系统实现的具体操作方法又各不相同。利用者完全可以在使用某一检索系统之前,“临时抱佛脚”地求教于这些帮助系统,只要细心体会,就可以成为检索系统的使用专家。另外,在网络环境下,档案信息检索系统有这样的发展趋势,即随着计算机面向对象等技术的发展,检索系统的设计与开发越来越注重易用性,检索系统可以设计得十分直观,操作简单。多数检索只需选定检索途径,输入提问词,就能得到检索结果。
(三)执行检索
执行检索的过程非常简单,每个网络档案信息检索系统都提供了进行检索的功能键,利用者将提问词输入完毕之后,按下相应的功能键,检索系统会自动执行相应的检索操作,并将检索结果返回给利用者。
计算机系统及网络系统会对执行检索的速度产生一定影响。计算机硬件系统如机器本身的CPU、内存、硬盘的速度、容量及其配置,计算机软件系统如检索软件、数据库管理软件,网络系统如带宽、速度等,都有可能影响检索执行的响应速度。
(四)身份认证与用户权限
因为是面向某一网络的全部用户发布档案信息,网络档案信息利用的过程必须能实现对某些有特殊要求的档案信息加以控制。这种控制主要表现在利用者向档案信息管理者即档案机构提供身份证明,档案机构给予利用者特定的用户权限。
身份认证通常采用两种方式,一是利用者通过电子邮件、信函、电话等手段与档案机构取得联系,向其邮寄单位介绍信或个人身份证复印件,档案机构审查通过后给予利用者相应的用户名和密码,利用者可以以该用户名和密码登录访问档案网站,而其访问的整个过程档案网站有相应的系统记录下来。二是通过利用者所在地的档案馆等档案机构代为审核利用者的身份,通过档案机构之间的合作,使利用者获得用户名与密码,从而得到利用相应的档案信息的资格。
在网络档案信息利用中,还要对网站用户或检索系统用户进行分类,设置多种用户类型,以控制其利用权限。如第一类用户只能浏览目录信息;第二类用户既能浏览目录信息,也能浏览指定的档案全文信息;第三类能浏览全部信息,包括目录信息以及所有档案全文信息等。如果利用者需要,系统在严格验证用户身份后,可以以电子邮件或文件传输等形式自动将全文信息发送给利用者。
(五)网络档案信息利用的费用
对于一个档案机构来说,要进行档案信息网络化建设,提供网络档案信息利用,前期投入的开发费用还是比较大的。根据实际情况不同,这些费用可能包括购置相应的设备、建设网络基础设施、进行数字化处理、开发或购买网络档案信息检索系统及电子文件管理系统、进行著录标引等数据准备工作的人工费、档案网站建设投入的费用等等。这些费用的支出视各机构的实际情况而定。比如有些档案馆的档案网站建设就使用本馆技术处(科)的工作人员,除了他们的工资,基本上就不用付额外的费用了。对于我国的档案机构来说,在投资开发方面要学会走联合开发档案信息之路,多方筹措资金。如本书第一章中探讨的美国马里兰州档案馆和美国国家广播档案馆“借鸡生蛋”的案例,就是筹措开发费用的一种方法。档案馆利用“外”部援助的资金,对某一类档案信息进行数字化处理,提供给出资方利用,并同时签定可以将这类信息发布到网络中的协议。利用方由于需要大量此类档案信息,在其经济条件允许的情况下,资助档案馆进行开发,最终形成双赢的局面。在我国也出现了一些走联合开发之路的案例。为了适应我国邮电事业发展的需要,迎接第22届万国邮政大会在北京召开,1997年原邮电部决定组织编写《中国邮票史》。为了大量利用“邮电档案”,原邮电部愿意资助一部分资金,由中国第二历史档案馆提供人员、场地,购买所需设备,对馆藏的“邮电档案”进行整理,然后运用多媒体技术,将整理后的一次档案信息以数字化形式存储在光盘上,提供给原邮电部利用。其间共完成10余万卷档案的整理,200余万页文件的扫描,500余盘光盘的刻录,真正开创了社会与档案部门发挥各自优势携手开发档案信息的先河。这个案例与美国马里兰州档案馆和美国国家广播档案馆的不同之处,是开发仅限于对档案的数字化处理上,最终没有放到网络上利用。但它毕竟为档案机构的信息网络化建设提供了一种发展思路。
对于一个网络档案信息利用者来说,其利用的费用主要包括网络通信费用和档案机构收取的信息服务费。
目前,我国的网络通信费用还存在资费过高的情况。以中美两国比较为例,美国人均月收入2000美元,每月网络通信服务费支出不到20美元,约占收入的1/100;我国人均月收入不到1000元,网民每月实际花费的上网费用大部分在100元以内,约占收入的1/10。我国的国际联网费是国外的13.5倍,国内通信费是国外的40倍,差距之大非常惊人。有人将因特网上的信息检索成本用公式表达为:
成本=入网费+网络使用费+电话费+时间耗费
其中入网费是一次性的,不同ISP有不同标准。如上海市的ADSL宽带服务入网费为630元,其中310元为接入费,320元为设备费。网络使用费目前有两种收费形式,一种是包月形式,一种是计时形式。电话费,按线路占用时间计费,占用时间越长,付费越多。时间耗费指检索者为获得所需信息而消耗掉的时间,时间耗费成本的高低因人而异,职业、职位、工资水平都在不同程度上决定了时间成本的高低。当然,对于网络信息利用者来说,他们上网利用的不仅仅是档案信息,所以能折入档案信息利用成本的仅是网络通信费用中很少的一部分。但无论如何,对于网络信息利用者来说,他们希望通信网络“能够成为公用事业,就像自来水、电力和煤气一样,做到人人用得上、用得好、用得起”。
对于档案机构来说,在网络档案信息利用费用中,最应该考虑的是如何收取信息服务费。
目前,多数档案机构与利用者都可以接受的观点是,网络档案信息利用要分为免费和收费两个部分。免费部分的信息,利用者可直接从档案网站及其数据库中调用;对于收费部分的信息,利用者要通过电子邮件等方法与档案机构取得联系,交付相关的费用后方可调用所需的档案信息。目前的难点是如何确定收费的范围,应该收取哪些费用。比如要使利用者能够进行网络档案信息利用,开发费用是比较高的,这些开发费用是否应计入成本等等。对于这个问题,笔者主要通过中美两国在档案利用服务收费问题上的观点进行比较分析。
我国档案馆在档案利用服务中一度普遍实行有偿服务,收取一定数量的调卷费。在网络环境下,许多人依旧倡导有偿利用。他们认为: “有偿服务实质上是档案信息价值的体现,” “有偿利用档案信息是档案利用工作必须坚持的基本原则,只有实行有偿服务,才能充分体现档案信息的社会价值,才能使档案工作逐步实现产业化之路。”
美国档案馆提倡以免费服务为主。在进行档案宣传时, “免费服务”是其在推销档案利用服务中喊得十分响亮的口号。那么免费服务是否就不收取任何费用呢?并不是这样,他们要适当收取用于档案复印和散发的少许费用。在1986年美国《信息自由法案》修订版中,规定了三种收费项目:一是文件复印费;二是查找文件的费用;三是用于鉴定文件的费用。另外,他们对于不同的利用者收费不同,他们一般将利用者分为三类:一是包括新闻媒体、教育和非商业性的科研机构。这一类利用者的目的都是非商业性的,一般只收取合理的文件复制费用;二是商业使用者。商业使用没有明确的法律定义,通常理解为赢利活动。对这类利用者的收费包括复印、查找和鉴定文件的全部费用;三是指上述两种之外的所有其他利用者,如个人、公共利益团体、非赢利性组织。对这类利用者的收费包括文件的复印和查找费。在实际收费时,用于查找文件的前2小时和复印文件的前100页是免费的,而一个较易进行的非商业性的小查询通常都是完全免费的。在这些原则的基础上,美国的网络档案信息利用也提倡免费利用。在美国档案网站中查阅档案目录信息和档案全文信息是免费的。但要得到相关档案的复制件也要付出相应的费用。以美国国立航空宇航博物馆为例。其照片档案进行数字化处理后在网站上发布,但是这些照片扫描时分辨率并不高,仅供利用者全面掌握档案的内容信息,因而这些数字化的照片只有小幅显示时才清晰,通过网络下载后质量一般达不到利用要求,下载了也没有多大用处。利用者只是在网络中通过这些信息准确找到其所要利用的照片,而后通过各种方法再订购复制件,每张照片的费用是2美元。美国网络档案信息的免费与实际利用中的收费情况大抵如此。美国史密森纳研究院档案馆前馆长威廉·莫斯先生在1993年给我国国家档案局的一封信中指出:“档案不是商品,档案服务是能够出售的商品,但程度十分有限,认为档案馆可从向用户收取入馆费、利用费、查找服务费、复印费以及提供证明文件费中获利,这是错误的。高收费只能阻碍利用;档案馆向政府部门收取服务费是反生产性的。”
从以上的比较中可以看出,档案利用服务一定是要收取相关费用的,但收费要合情合理。在图5中显示的交费项目是我国实行有偿服务时的情况,主要是对一些网络档案信息检索系统的使用或者通过网络下载档案信息进行收费。
(六)网络档案信息利用结果
对于利用者来说,网络档案信息利用的结果有三种:一是在网络中直接阅读到相关的档案信息,并根据需要将这些信息下载;二是通过网络档案信息检索发现相关信息线索,通过向档案机构提交申请并办理相应手续后,获得物理载体的复制件。在国外许多档案网站中,都有如何购买和获得复制件的提示。如加拿大国家档案馆网站中的“Obtain copies of records”项目,美国国家档案与文件署的“Order”项目,都用于指导利用者如何获得档案复制件,包括文字档案的复制件、照片档案的复制件、承载音像档案复制品的磁盘、磁带、光盘等;三是通过网络档案信息检索发现相关信息线索,通过向档案机构提交申请并办理相应手续后,获得档案证明。档案机构为利用者提供档案复制件或档案证明,一般是根据利用者申请时提供的通讯地址通过邮寄传递给利用者。在这三种利用结果中,前两种利用结果实现了档案的情报价值,后一种利用结果实现了档案的凭证价值。