少数民族文字识别助力档案电子化管理
2022-08-10 15:32:042022年4月11日,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》强调“推动少数民族文字古籍文献的抢救保护”,“鼓励有条件的院校设立民文古籍与汉文古籍兼修的古文献相关学科专业”,“挖掘弘扬蕴含其中的民族团结进步思想,引导各族群众树立正确的中华民族历史观”。
01
中安未来基于全新的深度学习技术框架,推出通用文字识别,支持识别中文简繁体、藏文、维吾尔文、蒙文、阿拉伯文、哈萨克文、柯尔克孜文、日文、韩文、中英文字混排等十余门语种,可快速定制、开发字符集,少数民族语言共分4个语系,分别为汉藏语系、阿尔泰语系、南岛语系、印欧语系。四大语系包含藏文、维文、哈萨克文、阿拉伯文、柯尔克孜文等多种文字,少数民族语言文字是中国文字史的重要组成部分, 保护民族语言文字的多样性具有重大历史意义,与汉文古籍一样,少数民族古籍也是中华优秀传统文化的重要载体,是中华民族宝贵的文化遗产。中安未来少数民族文字识别在档案管理、文字提取、文献档案电子化管理等工作中发挥重大作用。
中安未来少数民族文字识别支持横排文本、竖排文本、表格、图片等多种版面文字分析;
少数民族文字识别支持集字校对(纵向校对)、综合校对(横向校对)图文比对功能,操作简便,秒级识别,单字识别率高;
少数民族文字识别可实现自动倾斜矫正、自动旋转、自动去下划线、自动去污、自动裁切等功能;
少数民族文字识别自动过滤倾斜、形变、光照变化、压线、网格、盖章、模糊、低分辨率等干扰。
02
中安未来通用文字识别集传统模式及深度学习算法相结合,除民族文字等多语种文字识别外,同时支持生僻字识别、手写文字识别。可识别字符集大于30000,适配龙芯、兆芯、飞腾等国产硬件平台。
色彩斑斓的民族文字所记录的历史文化是中华传统文化的有机组成部分,中安未来少数民族文字识别,为语言文字事业发展提供重要支持,以科技的力量助力民族文化的传承 。