南京政治学院上海校区 秦蓁珍
上海市档案局 胡明浩
【摘要】在大数据浪潮的引领下,我国各行业开展了广泛的大数据技术研究,那么,大数据与档案有什么关系,大数据时代又会给档案工作带来哪些挑战呢,档案工作者又该如何应对?本文通过分析大数据与档案的关系,探讨大数据时代电子档案归档“双套制”以及档案开放问题,为做好大数据时代档案工作打好基础。
【关键词】大数据 档案 双套制 开放 启示
大数据技术能够通过海量、动态数据的有效集成,推动社会治理的精细化和科学化进程,并有效节约社会治理的成本,已经吸引了世界多个的国际组织以及国家的关注,2014年9月18日,联合国开发计划署与百度公司宣布达成战略合作,共建大数据联合实验室。2012年5月23日,美国联邦政府发布了题为《创建21世纪的平台更好地为美国人民服务》的数字政府战略,正式进军大数据领域。在大数据浪潮的引领下,我国也开展了大数据技术的研究,大数据在一夜之间成为了各行业研究的重点课题,那么,大数据与档案有什么关系,大数据时代又会给档案工作带来哪些挑战呢,档案工作者又该如何应对?
一、大数据与档案的关系
自从大数据的理念提出后,我国档案部门迅速掀起了研究大数据的热潮,大数据、档案信息、大数据档案等概念在学术界反复地出现,那么到底什么是大数据,大数据与档案之间有怎样的关系,是我们研究大数据必须首先弄懂的一个问题。
(一)什么是大数据
大数据并非是一个确切的概念,单从字面上来讲,表示数据量的庞大,维基百科对大数据的定义比较直接:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈克-舍恩伯格认为,大数据是人们获得新的知识、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法[1]。还有的学者用大数据的特征来阐释定义,比较有代表性的是3V观点,即大数据是具有规模性(volume)、多样性(variety)以及高速性(velocity)的数据。笔者认为,大数据的概念应定义为记录人类社会活动的、具有规模效应的数据集合。
(二)大数据与档案的关系
《档案法》规定:档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。单从档案的定义来看,除电子档案外,其他载体形式的档案与大数据没有任何关系,只有档案记录的信息可以称之为数据。从档案的特征来分析,档案具有社会性、历史性、确定性及原始记录性。而大数据也具有类似的特征,大数据也是人类社会活动的原始记录,其内容也具有确定性,且其记录的内容只反映事物已经完成的状态,同样具有原始记录性。因此,档案与大数据的关系仅是具有相似的特征,大数据是具有鲜明档案特性的数据集合。但是,从数据的保存价值来讲,有些数据集合对国家和社会没有永久的保存价值,不需要永久保存。真正与大数据有直接联系的,只有电子档案一种形式,电子档案与大数据之间是种概念与属概念的关系。
(三)大数据由哪个机构管理
在面对迅速增长的数据量,美国联邦政府设置了首席信息官(CIO)岗位,专门负责数据的采集、发布与管理工作,且于2009年推出了开放数据平台DATA.GOV,为未来数据管理建立了较为科学的管理体制。就我国的情况来看,可以在《政府信息公开条例》的基础上,继续发挥国家综合档案馆的作用,赋予图书馆或档案馆采集、管理、发布数据的职责,这样既可以充分发挥图书、档案信息化工作平台的作用,避免信息化重复建设,又可以发挥图书馆、档案馆信息专业人才的集聚优势,为应对大数据时代作好准备。
二、大数据时代是否需要双套制
根据《电子公文归档管理暂行办法》规定,“电子公文形成单位必须将具有永久和长期保存价值的电子公文,制成纸质公文与原电子公文的存储载体一同归档,并使两者建立互联。”即是我们平时所说的电子文件归档“双套制”。那么在未来的大数据时代,“双套制”是否有利于新时期档案工作的开展?
(一)美国联邦政府的“单套制”策略
2012年8月24日,美国总统办公室以《备忘录》形式,向联邦各机关发布由美国联邦预算管理办公室(OMB)和国家档案馆与档案管理局(NARA)制定的《政府档案管理指令》,要求所有行政机关应在最大程度上尽量消除纸质文件并实现电子档案管理,并明确提出到2019年12月31日,联邦政府中所有永久电子档案以最完整的电子方式管理并实现以电子方式向NARA移交,届时NARA将不再接收任何纸质档案。同时,这份《指令》还规定,到 2013 年 12 月 31 日,美国所有联邦机构要制定数字化计划,把保存的所有格式的档案全部数字化[2]。美国联邦政府的这一举措,给我国的档案工作带来一些启示,面对未来的大数据时代,在电子文件数量激增的情况下,我国的电子档案归档还要不要继续坚持“双套制”?
(二)我国电子档案归档“双套制”存在的问题
虽然档案学术界对“文档一体化管理”、“前端控制”、“全程管理”等问题进行了长期的研究与探索,但由于工作理念、技术手段、信息安全等原因,导致大多数机构的电子公文流转系统和电子文件归档系统并没有实现真正的整合,继而使电子档案的真实性、完整性与有效性存在不少潜在的问题。因此,就我国目前的档案管理现状而言,“双套制”较好地满足了档案工作的需要,但随着科学技术的发展与应用,特别是随着“大数据时代”的来临,“双套制”引发的一个最主要的问题也随之而来。目前,我国相当数量的档案馆因为馆库的“胀库”而兴起了新馆建设的高潮,真正进入大数据时代后,任何一个机构每天产生的数据量将是巨大的,据统计2013年,中国产生的数据总量0.8ZB[3],如果用1TB的硬盘来存储的话,大概需要8.5亿块硬盘,而且随着大数据技术的广泛应用,数据的增长量是成几何倍数的,且相当数量的数据对国家和社会具有较大的保存价值,应该进行永久保存。面对这样一个庞大数据的增长量,继续坚持“双套制”的归档策略对档案工作是一个巨大的挑战。
(三)如何应对大数据时代做好电子档案归档工作
要应对大数据时代的电子档案归档工作,首先要做好现阶段电子档案归档系统与办公系统的融合,加强电子公文流转系统的全程控制,按照公文起草、签发、拟办的过程存储形成的电子档案,确保公文类电子档案内容齐全。对于专业类电子档案,应由国家档案局会同专业部门,分门别类制定有关专业类电子档案数据标准,确保专业类电子档案的系统配置、标准规范的尽快落实。其次,要制定档案数字化计划,要着眼未来档案工作发展需要,制定符合实际的档案数字化计划,并按照有关技术规范统一数据标准。最后,要瞄准大数据时代电子档案归档工作的需要,研究数据资源采集、管理、发布、分析、利用的数据平台模型,满足电子档案归档及管理的需要。
三、做好大数据时代档案开放工作
在实际工作中,由于各种原因档案开放工作与社会的利用需求还存在一定的差距。而在大数据时代,做好档案开放工作是决定档案工作成效的重要因素。
(一)大数据时代对档案开放提出了更高的要求
按照《档案法》规定,“国家档案馆保管的档案,一般应当自形成之日起满30年向社会开放。经济、科学、技术、文化等类档案向社会开放的期限可以少于30年”,1991年-2007年,我国各级综合档案馆馆藏档案年均开放率仅为27.9%[4],而欧美多数国家档案开放率已达到或超过60%,美国的档案开放率甚至达到了90%以上,根据国家档案局统计,2009年我国国家综合档案馆的档案利用为1308万卷(馆藏档案为28089.2万卷,开放档案为6687.4万卷),可见,我国的档案开放率与新时期档案工作的要求还有一定差距。大数据时代,数据已变成经济社会发展的重要基础,信息的利用与开发能力在很大程度上决定着整个社会的创新能力,如果不能及时地开放档案或数据,让社会公众掌握充分正确的数据,势必会影响政府的行政效率、以及社会的创新力。美国联邦政府的数据开放策略或许会给我们一些启示,2009年5月至12月,美国联邦政府开放数据平台DATA.GOV共收到社会各界约900项开放数据的申请,美国联邦政府回复:16%的数据立即开放,26%将在短期内开放,36%将计划开放,还有22%因为国家安全、个人隐私以及技术方面的限制无法开放[5]。因此,面对大数据时代对档案工作提出的新要求,怎样顺应形势做好档案开放工作是档案工作者必须认真考虑的问题。
(二)影响档案开放工作的原因
从实际情况看,影响档案开放的因素有很多,既有档案意识的原因,也有法律、人才队伍等方方面面的原因,诸多复杂的因素交织在一起,导致了我国档案开放工作进展得不甚理想。一是因为法律规定太笼统,《档案法》规定了档案应该开放的时限,而对于限制开放的规定则过于笼统,不够细致;另外,由于档案部门开放档案的责任太宽泛,社会各界对于利用档案的诉求也日益多元,对于档案工作者来说,开放档案不仅意味着方便了档案利用,也意味着承担了更多的未知责任,档案利用现实工作中出现的问题也反复在“告诫”档案工作者,开放档案一定要“慎之又慎”,这给档案开放工作确实带来了很多限制。
(三)如何做好大数据时代的档案开放工作
数据是大数据时代社会最基本的组成单元,数据采集和处理将成为社会发展的一项重要工作,随着科学技术的不断发展,大数据的增长必然是几何数量的。面对这样庞大的数据量,如果单纯依靠单一部门(比如档案馆)的力量很难做好数据处理工作。对我国档案工作者来说,明确档案开放鉴定的主体,由档案专职人员负责档案及数据开放鉴定工作,制订限制开放及利用的清单,在向国家综合档案馆移交档案时,由档案移交单位提出档案开放意见,注明哪些档案或数据应该延期开放,延期多长时间,除此以外全部开放。同时,还要以法律的形式列出国家综合档案馆的免责条款,免除档案馆开放档案的责任,档案馆只负责提供档案利用,由于档案利用而延伸引起的各种责任则与档案馆无关。
四、运用大数据思维提升档案信息综合服务能力
(一)搭建“智慧档案”服务平台
根据工业和信息化部的统计,目前全国有400多个大中型城市提出了建设“智慧城市”的目标,约占地级以上城市数量的60%以上。虽然“智慧城市”的建设还处在起步阶段,但城市运行与管理的各个系统已经在独立地发展,很多大中城市在智慧交通、智慧金融等系统已经取得了初步成果。档案部门可以抓住建设“智慧城市”的机会,结合档案工作实际,提出一套“智慧档案”服务平台的完整指标体系,运用信息和通信技术手段,向社会民众提供跨平台、跨设备和跨服务机制的档案数字服务,整合档案信息化建设形成的“信息孤岛”,解决档案信息化建设的瓶颈问题,真正实现档案的信息化管理、专业化挖掘、智能化应用,从而为社会创新和社会发展服务。
(二)拓展档案信息服务领域
在大数据时代的一个重要目标就是对数据获取和利用的便捷性,在我们提升档案信息服务能力的过程中,除了要开展档案信息化以及做好网络信息平台的整合,更重要的是要以用户体验为中心,把档案信息服务领域延伸到手机及手持终端领域。根据中国互联网信息中心的统计,截止2014年6月底,我国移动电话用户数量已突破12亿户,而手机网民的数量已达5.27亿,手机用户已经成为信息产业的重要客户群体。档案部门要着眼于未来手机以及手持应用终端的市场,积极搭建具有拓展性的综合信息平台,开发多样的手机应用APP,使人们随时随地都能享受高质量的信息服务。
(三)制订数据管理体系
大数据时代,任何一个机构都要面对海量数据,而且数据的格式是多种类型的,如果没有一个统一的数据管理体系,很难做好数据的采集、利用工作。因此,档案部门要着眼于大数据时代档案工作的发展需要,积极与信息化统筹部门合作,制订各种数据的管理体系,对于各行业产生的数据格式、元数据进行规范,确定数据的种类,构建数据检索系统,为大数据时代的档案管理打好基础。
[1] 维克托·迈克-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2013:9
[2] 王岚. 面向 21 世纪数字政府和档案管理[N].中国档案报,2012-10-12(3)
[3] 涂子沛.数据之颠[M].北京:中信出版社,2014:XXI
[4] 杨霞.我国综合档案馆档案开放与利用情况综述[J].北京档案,2009(2):23-25
[5] 侯人华,徐少同.美国政府开放数据的管理和利用分析[J].图书馆情况工作,2011(2):119