档案信息检索策略
策略对检索效果有很大影响, 检索策略制订得好, 不仅可达到较高的检全率和检准率, 还可提高检索速度, 缩短检索时间, 降低检索费用。尤其是对计算机检索来说, 制订周密的检索策略是检索能否成功的关键。
一、档案信息检索提问分析
提问是用户实际表达出来的检索要求, 也称情报提问。档案检索提问分析是对档案检索课题所作的主题分析, 目的是弄清用户真正的检索要求, 以便确定检索对象和检索范围, 它是制订档案信息检索策略的首要步骤。
档案检索提问分析包括以下内容:
(1 ) 检索目的: 是为了查证某一事实, 还是为了研究某一问题。
(2 ) 检索对象: 是检索档案中包含的信息, 还是检索某一特定的档案。
(3 ) 检索范围: 检索哪种类型、时间、地区和专业范围的档案材料。
(4 ) 现有档案线索: 如立档单位的名称、职能、沿革, 检索对象的时间、地点, 档案责任者、文号、图号, 相关联的人物、机构、事件等。掌握的线索越多, 越有利于检索的进行。
种种原因, 用户的检索提问往往不能准确全面地表达其真正的检索要求, 增加了档案检索提问分析的难度, 表现在以下方面:
(1 ) 用户往往把提问局限于那些认为检索系统能够提供的信息范围, 而不一定是他的全部需求。例如, 用户对档案机构或检索系统提供档案信息的能力有所怀疑, 认为不能满足其要求, 或者认为自己的时间、吸收能力、经济能力有限, 没有必要正式提问。另一些用户为了保密, 不愿将自己的要求和盘托出。因此,检索提问往往缩小、放大或偏离了真正的检索要求。
(2 ) 用户对检索要求的表达受用户水平和系统语言的影响,常常出现误差。用户受本身水平的限制, 在表达自己的信息需求时难免出现含糊不清、词不达意甚至错误表达自己的检索要求的情况。另外, 目前的档案检索系统绝大多数采用的是受控语言,而不是自然语言, 用户对这种受控语言往往很陌生, 缺乏这方面的知识, 难于用它精确地表达自己的需求, 在这种情况下, 表达的误差是不可避免的。因此, 用户的检索提问不一定能代表其真正的要求。
(3 ) 用户为实现其研究、查证等检索目的而应当提出的检索要求暂时还没有被意识到, 这种潜在的信息需求往往随着检索工作的进展逐渐明朗, 转化为现实的检索提问, 需要作进一步的提问分析。
看来, 如果把用户检索时的实际提问, 看作是他的全部信息需求, 那就片面了。用户潜在的需求不一定都被转化为检索提问, 用户的检索提问不一定完全反映他的检索要求, 表达的误差时有发生。因此, 弄清用户的真正需求, 并不是件容易的事,这就需要对检索提问进行深入的分析, 正确的提问分析是检索能否顺利进行的前提。
二、档案信息检索策略的构造
(一) 检索途径的选择
用户的检索提问选择合适的检索途径, 决定检索入口。对某一特定的检索要求选择什么检索途径, 决定于用户对档案线索的掌握程度及检索系统的设置情况。对于手工检索来说, 检索途径的选择就是决定采用哪种检索工具进行检索, 可以是分类目录, 也可以是主题目录; 可以是题名目录, 也可以是文号索引,等等。而对计算机检索系统来说, 则包括对数据库的选择及检索项目的确定。检索项目包括待检数据库中各种规范化代码如分类号、产品代码、国家或地区代码、机构名称代码等, 以及表示主题概念的检索词。在计算机检索中, 检索词是各种档案数据库中不可缺少的基本检索项目。检索词包括主题词和自由词, 一般总是优先选择主题词作为最基本的检索项目, 因此在计算机检索中, 主题检索途径是主要的检索途径。
(二) 检索标识的选定
检索途径后, 即可根据分类表或词表, 将表达用户提问的主题概念, 转换成检索标识。所选择的检索标识适当与否取决于对检索提问进行主题分析的正确性和全面性以及标引的准确性、专指性。在这里, 检索标识的选定对检索网罗度和专指度有很大影响。检索网罗度是指检索标识网罗检索课题主题概念的范围和程度, 网罗度高, 检全率就高。检索专指度指检索标识表达检索课题的主题内容的确切程度, 专指度越高, 检准率就越高。
达到较高的网罗度和专指度, 就要对检索课题进行深标引,这意味着要用更多的检索标识来更全面、更具体地标引检索课题的主题概念。具体来说, 要优先选择专指的主题词, 另外可选用适当的自由词配合检索。需说明的是, 使用自由词可达到较高的专指度, 可以及时反映新概念, 灵活性强, 但自由词缺乏词汇控制, 增加了检索难度, 因此, 自由词的选用是有一定限制的。
(三) 检索式的拟定
课题的主题内容选定了检索标识以后, 就可以用布尔逻辑算符和一些检索指令将检索提问中各有关概念之间的关系表达为布尔检索式。检索式是检索策略的具体表现形式, 它是对检索提问的逻辑表达, 也称检索提问表达式。
常用的布尔逻辑算符有: 逻辑与( 或称逻辑乘、逻辑积) , 符号“ * ”; 逻辑和( 或称逻辑加) , 符号“ + ”; 逻辑非, 符号“ - ”。检索指令是表示计算机能够执行的各种运算关系的标记和符号, 不同的计算机检索系统有各自的检索指令。不管用户的检索提问多么复杂, 都可以用布尔逻辑的原理, 使用概念组配的方法, 转化成布尔逻辑检索式。
下面是布尔逻辑运算方式的图例:
例如, 对“ 外国铁路拱式钢桥” 这一检索提问, 可编制如下检索式:
检索式编制的好坏, 直接关系到检索效果。检索式的拟定有一定的技巧, 其基本要求是:
(1 ) 应完整而准确地反映出检索提问的主题内容;
(2 ) 应遵守待检数据库的检索用词规则;
(3 ) 应符合检索系统的功能及限制条件的规定;
(4 ) 应遵守概念组配原则, 避免越级组配;
(5 ) 注意检索式的精练, 能化简的检索式尽量化简。
三、档案信息检索策略的调节
档案信息检索过程比较复杂, 由于种种原因, 检索结果往往
不能完全满足检索要求而出现一些偏差, 这就需要及时修改和调整检索策略, 进行反馈检索, 以达到既定的检索目标。
一般来说, 需要进行反馈检索的课题有两种类型: 一是未达到检索目标, 或用户又在原来检索的基础上提出了进一步的检索要求; 二是由于构造检索策略不当所造成的检索失误。不管是哪种情况的反馈检索, 都要对用户提问和检索结果进行深入分析,在原有的检索基础上进一步扩大或缩小检索范围。可通过下列方
法调节检索策略:
(一) 调整检索式
对于需提高检全率的课题, 常用以下方法扩大检索范围:
(1 ) 降低检索标识的专指度, 可从词表中或检出文献中选一些上位词参加检索;
(2 ) 删除检索式的某个组面, 调节检索网罗度;
(3 ) 增加用逻辑和( + ) 连结的相关检索词, 进行族性检索。例如, 对“ 研究生教育” 这一提问, 可编制如下检索式:
研究生( 硕士研究生+ 博士研究生) * 教育
在这里增加硕士研究生和博士研究生两个相关检索词, 意味着除了总论研究生教育的材料可以检出外, 专论有关硕士研究生和博士研究生教育的材料也可一并检出。
对于需提高检准率的课题, 常用以下方法缩小检索范围:
(1 ) 提高检索标识的专指度, 可以增加或换用下位词和专指性较强的自由词;
(2 ) 用逻辑与( * ) 连结一些进一步限定主题概念的相关检索项, 例如, “研究生* 教育* 通知”, 在这里“ 通知” 为档案的文种, 可对主题概念进行限定;
(3 ) 用逻辑非( - ) 排除一部分不需要的材料;
(4 ) 在检索标识后注明关联符号和职能符号, 以避免概念的误组配, 提高检准率。
(二) 增加检索途径
除了采用主题检索途径外, 增加分类途径、责任者途径或其他形式检索途径进行检索, 可以对档案材料的专业范围、档案类型、文种、时间等进行限制。
(三) 利用概念等级树扩检或缩检
利用分类表、词表中的概念等级结构向上扩大检索范围, 提高检全率; 向下缩小检索范围, 提高检准率, 这是用计算机自动实现的。例如, 可采用上位登录的方法, 将检索标识的所有上位词用计算机自动登录, 利于扩检。
(四) 采用截词检索、加权检索、精确检索等方法进行检索具体方法后叙。
需要指出的是, 由于检全率和检准率之间存在着相互制约现象, 提高检全率常常会降低检准率, 而检准率的提高又可能导致检全率的降低, 因此, 在构造和调整检索策略时, 应深入分析用户检索提问的实质及需求范围, 以达到理想的检索效率。