其他 面向残片缀合的敦煌文献图像数据集 标题: 面向残片缀合的敦煌文献图像数据集作者: 高歌,殷梓轩,李雪龙,赵小兵,翁彧第一作者: 高歌机构: 中央民族大学中国少数民族语言文学学院,中央民族大学信息工程学院,中央民族大学国家语言资源监测与研究少数民族语言中心,中央民族大学民族语言智能分析与安全治理教育部重点实验室期刊: 中国科学数据发表日期: 2024-09-02论文摘要: 敦煌文献是华夏各民族在漫长的历史中创造和遗留的珍贵遗产。由于年代久远,文献大多有不同程度的残损,缀合由此成为敦煌学研究的关键步骤。传统依靠人工缀合难度大、耗时长。近年来伴随计算机技术的进步,出现了计算机辅助的残片自动缀合技术。该技术的研究依赖于大规模图像数据的支持,而敦煌文献由于残损和收藏情况复杂,十分缺乏可用于缀合目的的高质量图像数据集。本数据集根据已发表的缀合论文收集了一批高质量残片图像数据,并补充了人工分割的图像数据,共计95组,366张。每组数据均包含1张完整的缀合参考图,及2–7张数量不等的残片。图像涉及文种主要为汉文,间有古藏文;涉及的文献收藏机构包括中国国家图书馆、大英图书馆、法国国家图书馆以及敦煌研究院等。数据收集、整理过程规范,经整理的可缀合组中的残片数量及残片来源的分布具备代表性,且图像质量较高,能够支持缀合算法或模型的训练和验证。关键词: 古籍残片; 敦煌文献; 数字人文; 残片图像; 自动缀合知网阅读链接: 点击跳转