“大数据” 时代档案信息安全管理新思考
继联合国推出“全球脉动”项目,希望利用“大数据”促进全球经济发展后,2012年3月,美国奥巴马政府集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,宣布推出“大数据的研究和发展计划”。该计划将“大数据”作为全球性发展战略计划,大力推动及改善与大数据相关的采集、组织、分析、决策工具及技术,并最终确立了“大数据”作为未来信息技术发展的核心地位。值得关注的是,美国政府在大数据计划中特别提到了“国家档案和文件署(NARA)”一项。我国的档案界虽未提出具体规划,但关注新技术、新方法,超前思考档案工作的未来图景一直是研究者和管理者的使命。档案安全历来就包括实体安全和信息安全。信息安全正迎来大数据时代和云计算环境的新风险和新挑战,这一新环境下的信息安全尽管与以往的信息安全有着历史的逻辑承续,但形成了一些新的特点,其风险链、风险域和风险度都有了诸多新变化,呈现出隐蔽的关联性、集群的风险性、泛在的模糊性、跨域的渗透性以及交叉的复杂性等特点,需要加强研究。在深入研究之前区别一下相关概念:云计算是你在做的事,而大数据是你拥有的东西。大数据是在云计算基础架构之上的应用形式。
1 档案数据采集安全
档案数据采集包括电子文档的收集和纸质档案的数字化处理两个部分。
1.1 电子文档收集范围扩展、内容即时
从某种意义上来说,“大数据”的一个重要理念就是掌握的数据量越大、内容越丰富,从中推断出的信息就越多。具体到档案工作,无论是从档案的凭证价值和情报价值,还是档案的现实价值和长远价值,抑或档案的第一价值和第二价值来考虑,就电子文档收集而言,可能需要重新思考归档的范围和形式。
大数据往往是唯一的样本数据集。举例而言,那些测量交通、行为、土壤酸碱、雨量、风力等物理信号的监控设备,或视频监控以及其他类型的器材所连续积累的时段性或实时性的数据,都单独记录着一个唯一的活动片段,一旦数据丢失,这个片段就随之永远消失了。从档案收集的齐全、完整、真实、有效和数据安全考虑,这些数据文档都应该实时在线归档,并同时保存离线副本。另一个比较典型的案例就是美国政府的«联邦政府Web2.0使用情况和档案价值报告»。该报告中提到:在社交平台上产生的信息,只要具有业务价值、证据价值和背景价值,就可以认定为归档的文件。我国迄今为止虽对这类内容无具体的归档规定,但根据大趋势判断,档案馆的收集范围需要主动扩展。
1.2 纸质档案数字化过程和结果安全
纸质档案数字化的过程安全是指在档案数字化过程中没有发生危害档案实体和信息安全的行为。因此,一系列的规章制度和规范的操作流程是必要的。首先,要考察数字化提供服务单位的资质和信誉。其次,要建立完善的管理制度,例如:案卷不准擅自带离加工现场,当日数字化的案卷必须当日归库;案卷进出库有严格的交接、检查手续等。最后,在数字化的过程中严格遵守国家标准«中华人民共和国行业标准(DA/T31-2005)纸质档案数字化技术规范»,档案的拆卷要以不破坏档案装订原貌为基础,在扫描过程中保证案卷整洁并确保扫描图像与原件一致。
纸质档案数字化的结果安全是指数字化后的档案数据有效、可用。因此档案数字化后必须经过电子档案质量检查这一环节,这也是对档案数字化结果安全性监测的重要一步。主要包括三个过程或环节:一是质量抽查,对于不合格的数据要及时返工重扫;二是数据检测,主要内容包括病毒检测、运行检测和数据核对等三个方面;三是数据利用检测,主要是将全部数据直接挂接到档案管理系统后,对外提供利用时,是否出现错误或者使用者发现的负责人进行处理。
2 档案信息管理系统安全
从上世纪90年代国内最早的档案管理软件产生至今,已经经历了近20年的发展。随着计算机及网络技术的发展,数字化档案管理方式在分布形式上从最初的单机版(C/S 架构)、到网络版(B/S架构)、直至发展到最新的面向服务的数据平台(SOA 架构);在功能上则从单一的仅实现简单档案管理的软件、到档案管理软件与OA 系统整合的数据库、再到现今的将数字化档案管理方式渗透到整个工作流(workflow)的数据库平台。档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。因此,档案信息管理系统的安全在很大程度上决定了档案信息的安全。
2.1 数据支持平台安全
前文提到的美国政府的大数据计划中的“国家档案和文件署(NARA)”,计划为十亿电子记录(CI-BER)的网络基础设施是一个联合机构主办的测试平台,这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录的文件和信息的收集,可称为计算研究所的文艺复兴。这个试验台将评估技术和方法,超大规模数据收集,以支持可持续的访问。
纵览国内外实践,构建档案大数据平台至少要实现四个层次的部署:一、云服务商提供全面、可视化的服务,尤其是档案大数据服务委托方有权分析基础设施中发生的所有事项;二、收集海量档案数据,并解决各个数据库的兼容问题;三、增强更快识别目标、锁定威胁来源和敌对事件的能力;四、基础设施具有可扩展性,可以执行短期和长期的分析。监控管理、风险控制、规则遵从是对档案云数据支持平台的最基本要求。
2.2 数据计算环境安全
传统的数据库系统不能有效地处理大数据,一是因为这些系统的设计无法应对现在的情况,现如今数据类型日益复杂,结构化数据所占比例越来越低;二是由于它无法既迅速又比较经济地对系统进行拓展。不仅是硬件程序设计环节,从数据管理的角度看,由于少量的数据样本容易进行单独的测试和监控,档案大数据计算平台上存储的数据首先要有详细的类别划分,其次才是存储和计算。
档案数据库的数据分析完成后,是要将结果呈现给不同的人群使用的。针对同一条查询指令,应该让不同角色的人群看到不同的结果信息,即查询所反馈的结果是不一样的:技术人员读取有关系统和设置管理的数据;档案工作人员查看、操作与自身业务范围相关的内容;普通利用者可以得到经审核公开的电子文本或目录。大数据时代的档案安全解决方案应该包括足够强大的、能够针对不同层次的人群提供不同的展现界面和工具。
同时,档案大数据系统必须具有目录整理、档案采集、档案审核、系统维护等功能,并利用现化代网络技术,实现多人多客户端操作。
3 档案提供利用安全
通常情况下,大数据实施的障碍来自文化而非技术。很多组织之所以没能成功完成大数据项目,正是因为他们未能认识到大数据对改进其核心业务的作用。正如1893年立式文件柜的出现最终解决了纸质文件的存储和检索的困难,档案大数据必将对档案信息的查找利用带来颠覆性的变革:档案大数据的核心不是拥有数据,而是拿这些档案数据去做了什么。
档 案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。这种主动提供利用的档案信息不仅仅是提供原始的档案信息,还应该同时具有内容分析、结果预测、辅助决策等功能。举例来说,我们在购物网站上的查询、购买内容被记录后,经常可以收到商家的商品推荐;在搜索网站上的检索历史被记录后,经常会在该网站的界面看到相关的内容推送。对于这些“智能显示”,普通人往往有这样一种认识:对有利于我的,会觉得大数据方便实用;对不利于我的,会疑问是谁在后台收集了我的隐私。基于绝大多数人的行为是可以预测的,相似的产品和服务被推荐给我们,很多情况下是对的,但这是以真正个性化和“长尾”丧失为代价的。截至2011年,各级国家档案馆馆藏已达3.3亿卷,到2020年,各级国家档案馆馆藏案卷将达6亿多卷。如此大量的档案信息,如果档案管理软件在程序设计上能够达到数据实时成功抓取,档案利用服务的水平与今日相较必不可同日而语。
大数据时代的档案信息安全是主动地提供档案数据安全保障,而不是等出现了无法挽回的损失再行补救。目前所有的相关研究都是基于这一目的的超前考虑,随着科学技术的进步及相关技术的发展,这些研究结果必将不断修正才能更好地为实际工作服务。