基于OCR技术的档案数字化工作

档案数字化是随着计算机技术、扫描技术、OCR识别技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式互相连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享。

“存量数字化,增量信息化”这无疑是今后档案数字化工作中的一个重中之重。这其中的较为繁琐和工作量大的环节应该就属扫描和识别两大块!人们已经告别了手工录入的时代,OCR早就替代了录入工作。那么怎么选择一款合适的性价比高的软件呢。识别速度、识别率都是两大核心。在这里分析目前市面上的OCR厂家。

一、wintone 文通TH-OCR

源于清华,服务清华,该项技术的主要研发主力军是清华。从多年前的4秒以上提升到现在2秒以内,识别率稳定在95%以上,可以满足当前档案数字化的大部分需求,整体性价比较高。开发文档、挂接方式较简单,能够实现多种格式的图片(JPG、TIFF)转化成双层PDF、可编辑Word。是国内比较受欢迎、稳居人气排行榜靠前的著名厂商之一。在全国拥有完善的售后体系与销售服务团队。

(备注:单页PDF、TIFF都可以转化为双层PDF哦)

二、汉王

国内最早的OCR厂商。识别速度和识别率普遍比文通较低一点,价格相差不大,汉王也完成了从OCR接口到各类具备OCR功能的硬件的转型。大量投入高拍仪、手写笔等产品。

三、abbyy(泰比)

一家俄罗斯公司的OCR产品。进口OCR比文通、汉王的识别率较高,不过识别速度较慢。基本要在6-8秒左右,用在项目上严重影响用户体验。另一方面,价格较高,接口较复杂,售后体系较差,响应能力极差。不过泰比对表格的识别很厉害,费用较高。

通过这样的配套设施,就可以在前端通过扫描仪将纸质的文件扫描形成图像,然后通过OCR文字识别软件,将图片上的文字识别出来,导出双层PDF或word文本!将数据进入到企业的档案管理系统,实现资源共享!

扫描仪我就不多说了,这个相信大家都很了解的,在档案数字化过程中,对于OCR文字识别软件的要求还是比较高的!所以,现在重点来看一下OCR文字识别软件的功能和特点!

做档案数字化的,相信不会只是单一的中文的档案,肯定会遇到多种文字语言的档案需要数字化加工,而这套软件,有一个强大之处就是支持识别多种语言,除了中英日韩,OCR文字识别软件德文、俄文、意大利文、法文和少数民族语维吾尔文的识别!

联系地址

北京市海淀区
中关村大街18号
科贸写字楼2116

免费电话

Call Now 4008 919 606