系列笔谈之四:智能时代古籍OCR技术
系列笔谈之四:智能时代古籍OCR技术

系列笔谈之四:智能时代古籍OCR技术


标题: 系列笔谈之四:智能时代古籍OCR技术


作者: 王军,刘成林,金连文,刘永革,张弛宜


第一作者: 王军


机构: 北京大学数字人文研究中心,北京大学信息管理系,中国科学院自动化研究所,华南理工大学电子与信息学院,安阳师范学院,北京书同文数字化有限公司,北京大学外国语学院,四川师范大学文学院,武汉大学文学院,清华大学《数字人文》编辑部


期刊: 数字人文


发表日期: 2022-09-30


论文摘要: <正>王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度学习技术在这个领域的应用显著提高了OCR的准确率,大大降低了应用门槛。它现在是古籍数字化领域受关注度最高,应用面最广,需求量最大的一门技术。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝