计算机软件及计算机应用 中国语言文字 一种基于Transformer模型的古籍自动标点技术 标题: 一种基于Transformer模型的古籍自动标点技术作者: 洪涛,程瑞雪,刘思汐,方凯齐第一作者: 洪涛机构: 古联(北京)数字传媒科技有限公司期刊: 数字人文发表日期: 2021-06-30论文摘要: 人工加注古籍文献标点符号,即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大,人工加注费时费力。随着人工智能(AI)的兴起,基于深度学习实现自动标点工作可以减轻人工的繁重负担。本方法使用基于多头注意力机制的端到端Transformer模型作为训练模型,使用正规出版的10亿字古籍语料进行训练。模型在验证集上的标点F1为86.5%,断句F1为95.1%。随后在未训练的语料中抽取19本书作为测试集,结果显示,模型对古典文言文语料预测结果较好;对专业性较强和白话文占比较多的语料则效度较低。关键词: 古籍; 机器学习; 深度学习; 自动标点; 自然语言处理知网阅读链接: 点击跳转