浅谈OCR技术在档案信息化应用的价值
一、OCR简介
OCR即Optical Character Recognition(光学字符识别)的简称,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。此概念最早由德国科学家Tausheck于1929年提出,而在国内上世纪70年代末才开始进行相关的研究,虽然起步较晚,但总体来说进步很快,尤其是针对汉字识别方面已经取得了相当大的成功,目前多数OCR相关产品的汉字识别率都在95%以上,其识别正确率也在逐步上升。
二、OCR在档案著录工作的具体应用
随着OCR技术不断的发展与完善,越来越多的档案信息化领域的技术人员对其在档案管理软件实际应用中的重要性有了较高认识,并逐渐开始在档案软件中取得应用。以紫光档案为例,经过技术部门对OCR技术的不断探索与应用实践,几年前就已成功将OCR技术应用在当时的档案管理软件中,并取得阶段性成果,真正实现了从数据扫描到信息提取,最后到档案校对、整编、归档全过程的自动化。
附件: 您所在的用户组无法下载或查看附件
具体来讲,利用OCR技术可以实现以下几方面内容:
(一)图像处理
利用图像处理技术在扫描的过程中对图像自动进行去污、纠偏、去黑边的处理,既提高了扫描图像的质量,又为下一步OCR识别提供保障。
( 二)OCR识别
发展至今OCR识别技术已经非常成熟,市场上主流的OCR技术提供商所宣传的识别率都在95%以上,而且还支持汉字和英文混排、日文和英文混排、韩文和英文混排的识别。而应用于档案行业需要技术考虑的主要问题是原稿本身的“质量”对识别效果的影响,档案本身的“质量”和形成年份有关,2000年以后形成的文件已经非常规范、字迹清晰完整,识别后的准确率很高,可以满足识别。
(三)信息自动提取
档案信息自动提取的过程中需要对文件的版面进行分析,现行档案中需要提取的信息的位置相对来说比较固定的,比如:文件题名在红头下边,再往下是文号,文件日期及主题词在尾页的末位,其它信息如责任者、拟稿人、主送、抄送也会有明确的标识,可以针对文档的特点建立模板库,随着模板库的增加提取的信息也会更加准确。
(四)内容校对
批量扫描后档案管理员需要对识别的信息进行校对,可以利用自动挂接的电子文件与记录进行对比校对,对错误的信息进行纠正,软件系统中应设计批量校对的方法或工具来提高校对的效率。
附件: 您所在的用户组无法下载或查看附件
三、OCR技术在档案著录的巨大潜力
在OCR技术应用的整个过程中,信息的自动提取是关键,提取的效果决定着整体著录的效果,从笔者所掌握的情况来看,目前档案管理软件供应商中能够提供高水准OCR技术应用的不是很多,未来还有很大的发展空间。随着此方面技术的不断完善,必定会给著录工作带来质的飞跃。那么,未来档案管理软件中OCR的全面应用到底能够给档案工作带来哪些便利?
一方面,节约档案著录工作的时间。根据测试得到的数据,现在利用OCR技术后,档案管理人员人均每天能够完成400~500页的扫描著录工作,待OCR技术在档案领域应用进一步成熟后,著录工作效率将提升30%左右,从过去的繁琐著录到未来的便捷著录仅仅是时间问题。
另一方面,著录准确率将大幅上升。现阶段应用OCR后著录准确率并不乐观,在原始档案质量好的情况下,准确率能达到90%以上,如果原始档案质量不好,准确率大致在70%~80%之间,而且后期大量的校对工作也会给档案工作带来不少的麻烦,未来将重点提升著录准确率,使著录出错率控制在2%以内。
第三方面,工作流程更加合理高效。进一步减少著录及后期校对所需的时间,使档案著录工作流程更加紧凑合理,由于以往档案工作者在著录等基础工作上花费了太多的时间,从而忽视了档案的利用工作,而整个工作流程改善后,就可以在档案利用上下大工夫,增强档案信息服务的价值。
要实现OCR技术在档案管理软件中的完美应用,作为技术部门最为关键的便是要掌握客户的需求,从客户的角度出发,是否能够满足客户需求才是衡量技术好坏的唯一标准。其次要明确目标,任何一种技术的成熟都离不开对目标孜孜以求的热情与决心,如果一味的满足现状,那么技术就谈不上发展。以我个人而言,希望在此方面有所突破,并已经开始着手准备。最后,要有持之以恒的耐力,这如同企业的发展一样,缺少耐力和韧性的公司是走不了太久的,技术更是如此,黑夜之后就是黎明,只有坚持才能看到光明。
在档案领域里,利用OCR技术辅助著录只是档案系统中集成新技术的一个实例,计算机信息技术发展到现在有各种各样成熟的技术可供我们来借鉴与参考比如:语音输入、手写板输入等,甚至将来会出现专门应用于档案著录的输入法也不是没有可能,信息技术永无止境的发展未来一定会有更多更好的新兴技术服务于档案事业。