档案自由标引与自动标引
一、档案自由标引
档案自由标引是指标引时不依据分类表和词表, 而由标引人员直接从档案题名或正文中抽取标引词或自拟标引词。档案自由标引不受分类表和词表的限制, 对标引人员要求低, 标引难度小, 标引速度快, 由于直接采用作者所用的词进行标引, 可达到较高的专指度。然而, 由于自由词标引没有统一的依据, 在大量标引的情况下容易造成用词不一致, 使同一主题的档案分散在几个词下, 使检全率降低。解决此问题的有效手段是编制后控词表。
(一) 档案自由标引要点
(1 ) 档案题名在很大程度上反映了档案的主题内容, 因此可作为自由标引的主要依据, 但当档案题名不能确切表达档案主题, 或者档案正文或摘要中含有题名中未反映出来的有检索意义的内容时, 就须从档案正文或摘要中抽取标引词。
(2 ) 标引词可由标引人员根据标引规则自主措词, 不必拘泥于原文用词, 但必须准确、规范、简洁、通用, 并尽量保证同一主题档案标引用词的统一, 必要时可参考词表或权威性词典。
(3 ) 除了标引档案主题中的主体因素外, 还应标引其他方面的因素, 以达到与档案主题相应的专指度。
(4 ) 由于自由标引主要用于计算机档案检索系统, 因此对标引深度无多大限制, 只要是有检索意义的主题概念都可以标引出来, 并尽可能地反映新学科、新事物、新概念, 对档案作者所用的新名词术语应尽量直接采用。
(5 ) 为控制标引质量, 应预先制定详尽的标引规则, 保证标引的顺利进行。标引规则的内容包括主题分析方法、标引用词的规定、标引内容的取舍、标引深度的确定, 人名、地名、机构名的处理及其他标引要求等。
(二) 档案自由标引的措词
档案自由标引用词是由标引人员自行决定的, 可以从档案原文中直接抽取, 也可以由标引人员根据标引规则自主措词, 措词的好坏直接关系到自由标引的质量和检索效果。
对自由标引措词的基本要求是简明、确切, 符合用户习惯和检索思路, 并力求对相同主题概念措词的一致性。
1. 措词的简明性
标引用词不能过于冗长、繁琐, 尽量避免不起作用的词的堆砌, 应在明确表达主题的前提下尽可能地简洁。如“ 中华人民共和国政府严正声明” 用“ 中国政府声明” 即可。但标引措词也不能简略到含义不清的地步, 如“ 北大同学录” 应标引为“ 北京大学”、“ 同学录”。
2. 措词的确切性
对于原文中含义不清的词, 应透过其字面描述把握其实际含义, 概括出能准确反映主题概念的词。例如: “关于集中整治无证‘ 三车’ 的通知”, 应标引为“ 无证行驶”、“ 电力三轮车”、“人力三轮车”、“板车”、“交通管理” 等。
3. 措词的用户保障原则
自由标引用词要符合用户习惯和检索思路, 尽量不用用户想不到的措词形式。如“ 野游避险” 可标引为“ 旅游安全”。
4. 措词的一致性
对同一主题概念的标引尽可能保持用词的一致, 尤其是对档案中那些常用的主题概念或容易引起分歧的主题概念应尽量做到标引用词的统一。例如: “ 周恩来100 周年诞辰纪念”、“ 纪念周总理诞辰100 周年”、“纪念周恩来百年诞辰”、“ 周总理诞辰100周年纪念” 一律用“ 周恩来诞辰100 周年纪念” 标引。再如 印巴关系”, 既可能指印度和巴基斯坦的关系, 又可能指印度尼西亚和巴基斯坦的关系, 标引时应作统一规范, 最好用全称表示,避免产生歧义。
(三) 档案自由标引中对人名、地名、机构名的处理
1. 人名的处理
对档案中涉及到的人名, 凡是具有检索意义的, 都应析出标引, 若是仅仅提及, 无具体内容的, 不必标引。标引人名时应针对下列情况作分别处理:
(1 ) 党和国家领导人的讲话, 应标引讲话人。
(2 ) 典型人物事迹介绍材料, 应将典型人物的人名标出。
(3 ) 档案中涉及的人物的合称词如“ 全国十佳少年”、“ 宋家三姊妹” 等, 除标引合称词外, 若论及了每个人的具体情况, 应将其分别标引。
(4 ) 档案中用了人称代词的如“ 我”、“ 你”、“ 他”、“ 某人”等, 将其全名标出。
(5 ) 人名不全, 如仅有“ 姓+ 职务” 的, 用人名全称, 并可将其职务、身份一并标引, 如: “ 朱