计算机档案信息检索技术
一、加权检索
所谓加权检索, 就是在检索时, 给每个检索词一个表示其重要程度的数值( 即所谓“ 权”) , 对含有这些检索词的档案进行加权计算, 其和在规定的数值之上者作为检索结果输出。权值的大小可以表示被检出档案的切题程度。加权检索可对检出档案材料进行相关性排序输出, 也可根据检准率的要求进行灵活的分等输出, 输出时按权值大小排列, 只打印权值超过阈值的相关文献。
检索词的权值是按照提问者的需要给的。例如, 有一个检索课题是关于粮食收购政策的, 可分别给检索词一定的权数:
粮食30
收购30
政策40
检索时, 检出一系列有关档案材料, 按权值递减排列如下:权值
100 = 30 + 30 + 40 粮食收购政策
70 = 30 + 40 粮食政策
60 = 30 + 30 粮食收购
若指定权值大于或等于70 的为命中文献(70 为阈值) , 则只有有关粮食收购政策和粮食政策的档案材料被打印输出。
加权检索有许多具体方法。例如, 在计算检索式的权数时,若检索项用逻辑乘运算, 则取大的权数作命中档案的权数; 若用逻辑和运算, 则取命中文献中含有的检索项的权之和为命中档案权数; 若用逻辑非运算, 则取前一个检索项的权作为命中档案的权数。另外, 在石油部情报所的API 检索系统中, 将权分为六等, 即* ; P ; N; D; B; A。星号权最高, A 权最低。检索时可按用户需要分等输出检索结果。
在实际检索过程中, 到底采用哪种方法, 应根据用户的检索要求以及检索系统所能提供的检索功能而定。
二、截词检索
所谓截词检索, 就是把检索词加上某种符号截断, 让计算机按照检索词的部分片断同索引词进行对比, 以提供族性检索的功能。截词检索主要用于西文文献的检索中。
截词检索可采用右截断( 前方一致) 、左截断( 后方一致)、左右同时截断( 中间一致) 三种方法。
1 . 前方一致
即将检索词的词尾部分截断, 右截断在计算机检索中广泛应用, 这种方法可以省去键入各种词尾有变化的检索词的麻烦, 有助于提高检全率。例如, 键入检索词Comput er + (“ + ” 为截断符号) 可以检索出任何含有Computer 开头的检索词的文献, 如Comput ers , Computerise , Compute rize 等。
2 . 后方一致
把截断符号放在字根的左边, 如+ Compute r , 那么计算机在进行匹配时, 索引词Minicomputer , Microcomp ute r 等均算命中。
3 . 中间一致
将字根左右词头、词尾部分同时截断, 例如: + compute r+ , 可以命中包含该字根的所有索引词, 如minicomputer , microcomputer , compute rs , minicomputers , 等等。这种左右同时截断的方法, 在检索较广泛课题的材料时比较有用, 可获得较高的检全率。
需要指出的是, 截词检索有可能检索出大量无关材料, 针对这种情况, 某些计算机检索系统规定了右截断的限度, 如在截断符号后加入一个限定字母数的值, 例如: Circ * 3 可以包括Circle(圆) , Circlet ( 环形饰物) , Circula r ( 圆形的) , 但不包括Cir cuity (转弯抹角) , Circulation ( 流通) Circumst ance ( 环境)等。
三、限定检索
在计算机检索系统中通常具有限定检索的手段, 以缩小检索范围。这种限定检索主要采用字段检索方式, 即将检索限制在某一特定的字段范围内, 以提高检准率。例如:
环境保护( LA)
在这里, 是用语种进行限定, 括号内的“LA” 表示语言, 意指该检索词只在语言字段进行检索。除此之外, 还可用文献类型、作者、国别、出版年、数据库更新时间等进行限定