系列笔谈之四:智能时代古籍OCR技术
北京大学数字人文研究中心 “古籍智能”系列专题 北京大学数字人文研究中心 王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度学习技术在这个领域的
北京大学数字人文研究中心 “古籍智能”系列专题 北京大学数字人文研究中心 王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度学习技术在这个领域的