数字档案馆,作为传统实体档案馆在信息时代的新型组织形式,是实体档案馆在信息时代不断创新和发展的必然,是迎接知识经济时代挑战,拓展传统实体档案馆功能,满足用户需求,提供个性化、多样化服务的关键,也是提高社会档案意识的新契机。那么,如何从数字档案馆浩如烟海的大量数字化资源中提炼、挖掘出有价值的,对数字档案馆进行知识积累、知识创新有着数据支撑作用的有效信息,这是未来数字档案馆建设所面临的重要课题。数据挖掘技术正是解决这一难题的有效途径,数据挖掘是当今计算机领域的热点,其成果也广泛应用于图书情报领域,笔者受这些研究的启发,力图就数据挖掘技术在基于知识管理的数字档案馆中的应用进行探讨。
1.数据挖掘定义与分类
1.1数据挖掘的定义
数据挖掘是一门很广义的交叉学科,脱胎于计算机,虽然已应用到诸多领域,图书、情报界的实践也已经充分验证其价值,但在档案界,数据挖掘仍然被当成深奥的技术和理论,很多档案工作者对个这概念还是云雾迷蒙,比较模糊。那么什么是数据挖掘呢?数据挖掘(Data Ming),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程①。这个过程的目的是为了发现隐藏在大量数据泥沙中的 “知识金矿”,因此,将数据挖掘定义为“数据中的知识挖掘”更为恰当②。所以,数据挖掘也被人称为知识挖掘、知识抽取等。
1.2数据挖掘的分类
数据挖掘可以根据挖掘任务的不同,把数据挖掘方法分为概念描述、关联分析、分类分析、聚类分析、偏差检测等多种类型,具体如下:
1.2.1概念描述(Concept description)
就是通过分析和比较,将某类相互关联的数据进行汇总,归纳出此类对象的相关特征,对关于此类的大量信息进行描述,这些描述是抽象的,有意义的。它的类型有两种:特征性描述和区别性描述。1)特征性描述适用于描述某类对象的共同之处,例如,某档案馆的档案数据库中存在大量的用户基本信息,其中涉及:姓名、年龄、工作、利用喜好等信息,如果对历史研究者进行描述,很有可能得出以下结果:以高校教师、学生为主,以编修各种志书、撰写史学研究文章为目的。2)区别性描述,用于描述两个或多个类对象之间的差异,例如,对企业用户和历史研究者特征进行比较,也许能得出以下规则:主要利用生产管理和科研管理方面的档案信息,以取得一定经济效益和社会效益为目的。
1.2.2关联分析(Association analysis)
就是描述数据库中数据项之间存在的相关特性,即挖掘出隐藏在数据项之间的相互关系,具体来说,若其中两项数据或多项数据存在着某种关联,其中一项数据就能依据其它数据进行预测。关联分析能发现用户利用不同档案信息之间的关联,分析预测用户利用模式。
1.2.3分类分析(Classification analysis)
就是将数据库中的数据有序的聚合在一起,有助于人们对事物的全面把握③。分类分析可分为结构化数据分类分析,如关系数据库中的数据,和非结构化数据分类分析,如文本数据。分类分析的具体过程为:用一组特征不同的类别为一个数据集合中的数据进行分类,然后找出描述这些数据的模型,并根据这个模型将数据划分到不同的类别中,利用这个模型可以预测未知的数据。分类分析可以通过已有用户档案数据库中的数据,揭示用户特征和用户利用行为之间的关系,并按照影响用户行为的程度对这些数据进行分类,用来预测未来的用户行为。
1.2.4聚类分析(Clustering analysis)
就是将数据库中的数据划分为不同数据类的过程,它与分类分析不同,前者是在预先不考虑已知分类模型的情况下,把数据放入不同的分类中,聚类的目的是根据最大化类内的相似性,最小化类间的相似性这一原则合理的划分数据集合④,简单来说就是使类内的差别最小化,类间的差别最大化,这样就可以把类似的数据组织在一起并导出某种规则。
1.2.5偏差检测(Deviation detection)
就是通过发现数据库中的异常情况对偏差的数据进行分析的过程,重点是发现数据中的异常变化,数据库中的数据变异可能是人为错误引起的,更有可能是数据更新等自然变化的结果。偏差检测的意义在于可以有效排除大量不相关的数据。例如,某档案馆在形成某种编研成果之前,先在用户信息数据库中进行检索,并与档案馆数据库中的已有资源结合,再用数据挖掘技术将不想关的用户利用模型排除,把剩下的作为重点,制定有针对性的编研策略。
2.基于知识管理的数字档案馆中的数据挖掘
前面已经介绍了数据挖掘的概念及模式,那么基于知识管理的数字档案馆的数据挖掘应该是怎样的呢?笔者认为首先应对数字档案馆资源、知识管理和数据挖掘的关系定位。数字档案馆的知识资源要被组织和发现,这是数字档案馆实现现代化科学管理,提供快捷、优质服务的基础。对数字档案馆实施知识管理是应对知识经济时代挑战,最大化数字档案馆知识资源潜力,最终实现数字档案馆知识创新的必然要求。没有实施知识管理的数字档案馆无法满足未来发展的需要,缺乏管理对象的知识也成了无源之水。数据挖掘是组织和发现数字档案馆中知识资源的有效途径,为数字档案馆实施知识管理创造了条件,是两者得以无缝链接的承上启下阶段。这里的数据挖掘不能看成是纯粹的信息处理技术,它是对信息处理技术集群进行协调和管理的方法和策略。基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础,立足于多种信息技术的协调和配合,以实施挖掘算法和挖掘模型为手段,以组织和发现数字档案馆中已存在的知识资源,为实施知识管理提供管理对象为目的,让数字档案馆有效利用知识,实现知识创新的过程。
3.基于知识管理的数字档案馆中的主要挖掘对象
3.1数字档案馆中的固化资源
这是存在于数字档案馆中的显性知识,即记录于一定物质载体上的知识⑤,包括:已数字化的馆藏资源、现行电子文件、检索工具、编研成果,与数字档案馆工作相关的各种法律法规、规章制度、行业标准等,围绕数字档案馆建设所产生的研究成果、技术资料及有助于数字档案馆发展的其它相关知识。
3.2数字档案馆中的智力资源
这是存在于数字档案馆中的隐性知识,是存在于档案馆行政管理人员、政策法规研究人员、信息技术人员、对外协调人员等头脑中所储备的大量非编码智力资源,包括:各种管理方法、计算机处理技术、处理问题的能力等。由于人是知识管理的核心,是知识管理中最活跃的最主动的因素⑥,所以对这部分知识的挖掘也是数字档案馆知识挖掘的重点。
3.3用户利用行为信息
用户的利用行为信息包括两方面,利用信息和反馈信息。利用信息是用户为了解决现实问题,满足学术、科研、生产等需求,在实施具体利用行为时所产生的信息,包括:访问内容、访问频率、访问时间等,它们反映出用户对数字化资源的个性化、多样化需求及利用规律。反馈信息是在档案利用这一连续活动中,档案利用者发现的问题和情况、提出的要求、意见、评价和效益等⑦。对这些数据的挖掘,可用于对用户未来利用趋势的分析预测,以及提出在此基础上的管理决策,为提高数字档案馆的服务水平提供依据。
4.挖掘过程
如图所示,在数字档案馆的运行过程中,一旦确定某个主题,首先就要对这个主题进行定义,明确数据挖掘的要求和目的,在对问题进行定义的同时,对档案数据库中的显性知识和隐性知识进行收集提取,并对其进行概念描述归纳出需求的相关特征,通过聚类分析,按照相似性和差异性形成不同的需求分类模型,并把数据放入不同的分类中,通过需求分类模型与用户利用信息的结合,进行差异分析和偏差检测,排除大量不相关的数据,形成挖掘结果。之后便对挖掘结果进行评价,形成的挖掘结果有可能存在无关的数据,也有可能不满足需求,如果不符合挖掘要求和目的,整个数据挖掘过程就要退回到数据收集阶段,并重复挖掘过程,这可以用“if not…then”规则来进行描述,反之则达到数据挖掘要求,能为数字档案馆知识管理所用,并充实到原有数据库中,实现档案馆的知识创新。
5.数据挖掘时应注意的问题
5.1数据挖掘方法的选择
由于数据挖掘方法功能的各不相同,所以要针对挖掘需求和目标,采用适合的模式和算法,特别是在对多个数字档案馆进行跨馆、跨库挖掘的时候,各馆可能采用不同的数据库系统内核,如ORICLE、SQL SERVER、DBII等等,且各馆馆藏内容也大相径庭,所以在进行数据挖掘的时候应立足于所处的数字化馆藏环境,在方法的选择上有的放矢,不能一概而论。
5.2数据挖掘结果的准确性
即对数据挖掘质量的控制问题。数字档案馆数据库中涉及大量的数据信息,在这些海量数据面前,不可避免的会出现冗长,甚至错误的数据,所以在进行数据挖掘时,应根据数据挖掘任务的不同,选择适合的挖掘类型和算法,并对出现的错误数据进行修正、处理、加工,为档案馆提供科学合理的各种分析报告和相关预测信息,指导档案馆工作人员采取正确手段,并为档案馆改进服务、作出决策提供智力支持。
5.3用户隐私的保护
档案馆利用数据挖掘技术优化服务,提高管理水平的同时,也不可避免的增加了侵犯用户隐私权的可能性,因为用户在利用数字档案资源的过程中涉产生大量的个人信息,这些信息包括:用户的姓名、工作、学历、兴趣等,它们一旦被其它别有用心的人所获取,用户就有可能受到,进而造成用户对档案馆的反感,影响到用户的二次利用,所以档案馆应该妥善保管这些信息,建立有效的隐私保障机制,不能在未得到用户授权的情况下将他们的个人隐私泄漏出去。
5.4人力资源的保障
数据挖掘脱胎于计算机领域,要在基于知识管理的数字档案馆中实施数据挖掘必然离不开优秀的计算机专业人员和管理人员,但只强调专业技术,忽视对其业务技能的培养,也会制约数字档案馆的发展,所以在数字档案馆建设过程中,需要加强对专业技术人员的档案知识补充,同时调整档案馆管理人员的知识结构,使他们尽可能的掌握必要的网络、数据库基础知识。
从实体管理到信息管理,从信息管理到知识管理已是档案馆发发展的不可逆转进程,基于知识管理的数字档案馆是档案馆发展的必然组织形式。数据挖掘可以快速有效地分析和处理来自数字档案馆内外的海量数据和信息,使隐性知识显性化,显性知识结构化,为数字档案馆的科学管理和服务水平的不断提高提供了有力支持,使档案馆向着知识化的方向发展,随着信息技术的不断深入和挖掘算法的不断改进,数据挖掘必将与数字档案馆的知识管理结合得更加紧密,显现出更加强大的生命力。
注释:
① 邵峰等,于忠清.数据挖掘原理与算法[M]. 北京.中国水利水电出版社,2003 .P2
② Jiawei Han, Micheline Kamber .Data Ming Concepts and Techniques[M]. Morgan Kaufmann Publishers. 2001. P5
③ 苏新宁.数据挖掘理论与技术 [M]. 北京.科学技术文献出版社.2003.P25
④ 苏新宁.数据挖掘理论与技术 [M]. 北京.科学技术文献出版社.2003.P28
⑤ 徐拥军,王宏. 论企业档案在企业知识管理中的作用[J].档案学通讯.2004.3
⑥ 李昕.信息管理与知识管理比较分析[J].贵阳市委党校学报.2006.5
⑦ 史江,李金峰.档案利用信息反馈工作的问题与对策探讨[J].档案学通讯.2007.3
参考文献:
① 邵峰等,于忠清.数据挖掘原理与算法[M]. 北京.中国水利水电出版社,2003
② Jiawei Han, Micheline Kamber .Data Ming Concepts and Techniques[M]. Morgan Kaufmann Publishers. 2001
③ 苏新宁.数据挖掘理论与技术 [M]. 北京.科学技术文献出版社.2003
④ 王预.数据挖掘的应用研究[J].中国信息导报.2007.1
*本文为教育部人文社会科学规划项目《基于知识管理的数字档案馆建设策略研究》(项目批准号:06JA870008)成果之一。[作者简介]黄小忠,四川大学公共管理学院档案学专业2006级硕士研究生;史江,博士,四川大学公共管理学院副教授。(原载于《档案学通讯》2008年第四期)