计算机软件及计算机应用 自动化技术 图书情报与数字图书馆 基于深度学习的古籍文本自动断句与标点一体化研究 标题: 基于深度学习的古籍文本自动断句与标点一体化研究作者: 袁义国,李斌,冯敏萱,贺胜,王东波第一作者: 袁义国机构: 南京师范大学文学院,南京师范大学数字与人文研究中心,南京农业大学信息管理学院期刊: 图书情报工作发表日期: 2022-11-20论文摘要: [目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。关键词: 古籍; 数字人文; 深度学习; 自动断句; 自动标点DOI阅读链接: 10.13266/j.issn.0252-3116.2022.22.012