中国语言文字

我国民族语言文献文本数字化识别问题——基于OCR及其工具

标题: 我国民族语言文献文本数字化识别问题——基于OCR及其工具

作者: 范俊军,刘贤娴

第一作者: 范俊军

机构: 暨南大学文学院

期刊: 暨南学报

发表日期: 2024-07-25

论文摘要: 我国少数民族语言文献数量庞大，文字种类繁多，内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域，是中华民族文化知识的重要组成部分。构建各民族文献文本数据，使之应用于自然语言处理和人工智能，能有效促进中华优秀传统知识创新性传承，促进知识社会化，是对各民族语言古文献和现代书报刊进行文字识别和文本转换数据构建的基础。国内早期OCR技术虽然解决了几种主要少数民族文字识别的问题，但因字符为非Unicode基本集编码而弃用。当前OCR技术已能较好识别蒙、藏、维、哈、朝等文种文献，但在处理我国汉文与少数民族文字混排图像文本时仍然效果不佳。因此应推进少数民族语言文献OCR识别技术创新。我国少数民族语言文献现行活态文字有十多种，其中非拉丁字系的文字有11种，OCR技术应重点解决这类少数民族语言字系的抄本、刻版和铅字印刷文本，以及汉文与民族文字混排文本的识别问题，研发开放的多功能工具和平台。在此基础上，进一步开展少数民族语言文献文本大规模数据构建，以促进我国语言科学研究和自然语言处理的创新发展。

关键词:

OCR; 少数民族语言; 数字人文; 数据构建; 文本识别; 民族文献

知网阅读链接: 点击跳转

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝