大数据之光照进档案业
作者:张理平
《大数据时代》一书出版于2013年,按照作者维克托·迈尔-舍恩伯格和肯尼思·库克耶所说,这是一场生活、工作与思维的大变革,“大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”
本书定义的“大数据”就是基于海量数据分析从而产生巨大价值的产品和服务,它以石破天惊之势为大数据概括出了三个核心特性,即:关心全部样本而不再是抽样数据;包容混乱和错误,不再关心数据的精确性;不再关心因果关系代之以相关关系。而大数据的核心就是预测,通过对海量数据进行数学运算,人们拥有了预知未来的魔镜。
虽然档案业和一些与大数据预测紧密相关的行业不同,但是滚滚来袭的大数据浪潮也必将使传统的档案工作发生变革。值得档案业界研究的问题很多,这中间也蕴藏着很多的机会。
首先,大数据理论将有助于回答电子档案如何收集以及后续如何更好地管理和利用等重要命题,或将化解长期以来困扰着档案工作的利用需求无限扩大与存储空间、管理成本有限之间的矛盾。
在大数据时代,政府成为最大规模的信息采集者,国家综合档案馆作为天生的数据集散地,其电子档案收集范围必将进一步扩大,移交时限也将进一步缩短。而在“开放政府数据”的倡议响彻全球的年代,电子档案的开放时限也将在既有框架中不断寻求突破,变得更加灵活。对大数据的分析处理和增值应用,将成为未来档案开发利用的重要内容,档案馆坐拥庞大的数据资源应该成为巨大社会价值的产出地。在这种情况下,对于档案管理工作进行一场技术革新也是在所难免的,大数据时代的来临相比其他信息技术则更加契合档案管理工作的需要。
在档案管理过程中,人们一直在探讨如何在收集环节把好关口,要避免档案实体涨库,克服档案信息存储空间的限制,又要防止有价值的档案被淹没在价值低甚至毫无利用价值的海量档案中间;而在利用环节,人们追求档案如何在需要时应有尽有、无所不包,同时要能被快速、准确地检索出来。档案工作者长期以来就在这个像悖论一样的命题中间“带着镣铐跳舞”。而大数据或将轻松化解这个难题。在数据化的环境中,对档案收集选择性的要求会大大降低,毕竟保存数据的成本比保存档案实体低得多,而在大数据时代也很难预判什么样的信息有价值、什么样的信息没有价值。对档案数据的利用也将发生翻天覆地的转变,不但查准、查全变成了小菜一碟,深入的数据处理将赋予档案数据更大价值。
其次,大数据时代允许不精确或将改变档案收集的质量标准和整理要求。
书中观点认为,在大数据时代允许不精确的出现已经成为一个新的亮点而非缺点。人们需要与各种各样的混乱作斗争,这种混乱也可以指不同的数据格式,如要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。
在日常的档案收集工作中,档案馆确实花了大量的时间和精力在与“不精确”作斗争。除了就整理、鉴定的标准与要求与各移交单位进行反复沟通以外,在某些时候甚至帮移交单位做一些具体而细微的“手工活”。在未来,对档案整理的要求将日益趋于简单和便利。“虽然如果我们能够下足够多的功夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会给我们带来更多好处。”也就是说,要实现档案管理全程效益最大化,在收集环节科学地“包容错误”将成为大数据时代一种现实的选择。
当然,即使在大数据时代,接收工作也必须要坚持一定的质量标准。如果待移交档案中存在一些不能忽略的基础性问题,进馆后将影响档案收集以及后续工作的科学推进。笔者认为,在包容错误与坚持标准之间踩准节拍,底线应该是不影响进馆数据后续的关联分析。
再次,在大数据时代,传统载体档案将面临全面的“数据化”而不仅仅是“数字化”。
“数字化”可能是僵死的信息存储,而“数据化”则是可检索和可以进行关联分析的活数据。IT业所指的数据,诞生不过60多年。一直到个人电脑普及以前,许多自然界和人类社会值得记录的信息并未形成数据。两个名词仅一字之差,实则有了本质的差别。
就目前档案馆的状况而言,纸质档案数字化的方式主要是将档案原件扫描成图形文件存入电脑,因为这些图形并没有被数据化,无法进行关键词查询和检索,也无法用于进一步的数据关联分析处理。而数据化之后,这些海量的档案文件可以更方便地被人和计算机运用。
不仅是纸质档案,各种载体的音视频档案未来同样也能够实现模拟信息、数字信息数据化的跨越。在大数据时代,世间万物都将被数据化并进而创造更大价值的尝试。
最后,在一个崭新时代微曦初露的当口,我国的档案业也必然面对不进则退的历史抉择,必须赢得先机,争取自主创新。
随着全社会对档案资源需求的日益增长,传统的档案管理方式已不能满足国家和公民对各类档案开发利用的需要。因此,档案业要积极应对大数据时代带来的种种变化,研究数据收集、管理和利用的新模式、新方法。大数据“做新、做多、做好、做快”的能力释放出无限价值,将会产生新的赢家和输家。就像马云曾说:“银行不改变,我就来改变银行。”就在传统的银行业坐拥垄断壁垒“高枕无忧”之际,竟被不入流的“搅局者”余额宝打了个措手不及,不得不被动地应对和调整。
本书的序一中说:“现代历史上的历次技术革命,中国均是学习者。而在这次云计算与大数据的新变革中,中国与世界的差距最小,在很多领域甚至还有着创新与领先的可能。”我国的档案业如果能在深刻认识以及纯熟运用大数据的规律中有所突破,也将有能力问鼎档案工作的世界之巅,面对我国庞大的信息消费市场,抑或像互联网领域的QQ和微信一样,另辟蹊径走出一条别样的繁荣之路。
原载于《中国档案报》2014年8月28日 总第2653期 第三版