一种基于Transformer模型的古籍自动标点技术
一种基于Transformer模型的古籍自动标点技术

一种基于Transformer模型的古籍自动标点技术


标题: 一种基于Transformer模型的古籍自动标点技术


作者: 洪涛,程瑞雪,刘思汐,方凯齐


第一作者: 洪涛


机构: 古联(北京)数字传媒科技有限公司


期刊: 数字人文


发表日期: 2021-06-30


论文摘要: 人工加注古籍文献标点符号,即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大,人工加注费时费力。随着人工智能(AI)的兴起,基于深度学习实现自动标点工作可以减轻人工的繁重负担。本方法使用基于多头注意力机制的端到端Transformer模型作为训练模型,使用正规出版的10亿字古籍语料进行训练。模型在验证集上的标点F1为86.5%,断句F1为95.1%。随后在未训练的语料中抽取19本书作为测试集,结果显示,模型对古典文言文语料预测结果较好;对专业性较强和白话文占比较多的语料则效度较低。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝