OCR文字识别系统,助力档案数字化管理
2021-12-31 11:21:54OCR识别技术在数据采集和数字化建档工作中举足轻重,自2013年以来,在国家档案局大力实施“存量数字化、增量电子化”的战略背景下,纸质档案数字化副本大量产生,档案OCR工作已全面启动,为规范相关工作的开展,国家档案局因势利导,于2019年12月发布《纸质档案数字复制件光学字符识别(OCR)工作规范》,规定了纸质档案数字复制件OCR工作的组织、实施和管理要求。
但档案类型多种多样,文字内容包罗万象,存在不同语言、字体、大小、排列和对齐方式,甚至识别难度更大的手写体、繁简体等情况,这些问题给数据采集和数字化建档工作带来了各种挑战。
中安未来文档识别
中安未来基于业界领先的OCR识别技术,自主研发的文档识别,包含通用文字识别、手写文字识别等多种识别授权,可识别中文、英文、藏文等多门语种,依托深度学习技术及海量图像样本测试,可精准检测出不同场景图片中的文本,实现快速定位识别,支持私有化部署、移动端SDK等多种形式使用。
国家知识产权局、地质勘察局、青海大学、中国邮政、东软集团等,均有应用中安未来文字识别技术,服务客户或集成到企业系统,应用于档案数字化管理、合同管理、数据的录入加工、纸质电子化等多种场景。
文档识别诸多优势
★支持识别纯英文、简繁体中文、日文、藏文、中英混排等十几门语种,高精度识别多种生僻字。
★通过手机、平板电脑、高拍仪、扫描仪、数码相机等途径获取的图像均可识别。
★支持普通文档识别、自然场景文字识别、通用表格识别、长微博识别。
★支持TIFF、PDF、BMP、JPG、PNG等格式图像的读取;可导出TXT、WORD、XML、XLS、双层PDF等格式文件。
★可实现自动倾斜矫正、自动旋转、自动去下划线、自动过滤红章等干扰背景。
★支持版面分析、可自动分辨横版竖版文字;在线可识别字在原文中的位置和大小,可同时识别多页PDF文件。
★中安未来将继续融入更广泛、更深层次的档案工作中,利用OCR识别技术开展档案数字化工作,提高工作效率和准确性,推动档案信息资源建设数字化转型。